¿cómo Puedo Asegurarme De Que Google Conoce Mi Contenido Es Original ?

La pregunta de hoy es de Kunal Pradhan. Por cierto que soy del oeste de Kentucky, así que disculpadme porque a veces soy terrible para los nombres. La pregunta es: "Google rastrea el sitio A cada hora y el sitio B una vez al día. El sitio B escribe un artículo y el sitio A lo copia, y cambia la marca de tiempo. Googlebot rastrea primero el sitio A. A los ojos de Google, ¿cuál es el contenido original y por tanto merecerá la mejor clasificación? Y si es A, entonces, ¿es eso justo para el sitio B?" Podría hablarte de un montón de detalles interesantes sobre cómo se rastrea la Web. Si realmente quieres ver cómo es una señal, la frecuencia de Nyquist te indica que debes muestrearla por lo menos al doble de esa frecuencia. Pero la realidad es que siempre puedes cambiar una página web. Así que la idea completa, el concepto de poder rastrear toda la Web y disponer de una copia perfecta en cada instante, tiene sus inconvenientes, porque en un momento dado solo podemos ir y recoger un número finito y determinado de páginas. Si intentásemos recuperarlas todas, y nuestra arquitectura casi sería capaz de ello, entonces acabaríamos por bloquearlo todo debido a todas esas peticiones. Así que intentamos rastrear de una forma bastante respetuosa. También intentamos priorizar, basándonos en cosas como la clasificación de una página en particular, o si un sitio tiene un PageRank muy alto. Así que la pregunta es, esencialmente, si A se rastrea a menudo pero el artículo original viene de B, ¿qué pasa si A está robando el contenido de B? Bien: siempre hay formas de ayudarte a protegerte contra esto. Por ejemplo, si envías un Tweet, la gente puede verlo, enlazar a él, y nosotros podemos seguir esos enlaces más de prisa, antes de descubrir el contenido en el otro sitio. Otra cosa que puedes hacer es usar cosas como Pub SubHubbub, que a su vez hace ping en distintos lugares. En muy pocos casos usamos Pub SubHubbub para ayudarnos a mejorar el rastreo, y esto puede cambiar con el tiempo. Es una forma excelente de, en algún modo, decir, de forma asíncrona: hola, aquí hay un nuevo artículo, o una nueva entrada en un post. Pero sigamos y veamos qué pasaría en este escenario hipotético. Si A ha copiado tu artículo y ha cambiado la marca de tiempo, esto es un poco fraudulento, como si dijesen que lo han escrito ellos. En este caso, puedes hacer un par de cosas. En primer lugar, si eres el autor del artículo, siempre puedes hacer lo que se conoce como aviso de Digital Millennium Copyright Act, en que envías esta solicitud de DMCA, y puedes encontrar la información correspondiente en http://www.google.es/dmca.html. Con esto, básicamente dices que este sitio ha copiado tu contenido, pero tú eres el autor original. Este sitio puede enviar una contranotificación, lo cual significa que rechazan tal afirmación. Dicen que ellos escribieron esa página, lo cual acarrearía penalizaciones en caso de que mintiesen. O bien, pueden no discutir esa afirmación y quitar ese contenido de su sitio. Así que, si alguien te está robando el contenido, siempre puedes realizar un aviso DMCA. También puedes, si se trata de un sitio generado automáticamente, y están robando el contenido de varias personas, hacer un informe de spam, puesto que eso no sería un sitio de alta calidad. No es el tipo de cosas que queremos en nuestro índice. Pero aclaremos el caso que nos ocupa. En teoría, es posible que encontremos un artículo en un sitio antes de encontrarlo en el otro. Así que realmente se da el caso de tener problemas para determinar quién es el creador original de una parte de contenido en particular, pero no podemos decir que somos perfectos. Hacemos todo lo que se nos ocurre para tratar de averiguar de qué modo puede indicarnos la gente que es autora de cierto contenido. De hecho, en Google News hemos introducido un par de etiquetas nuevas, casi como un experimento para ver qué tal funcionan, para indicarnos: aquí está el autor original de este contenido. Éstas son las aproximaciones que exploramos intentando encontrar otras fórmulas para conseguirlo. Por lo menos hasta el momento, en teoría, es posible tener un artículo. En la práctica, no pasa a menudo, y existen formas de soslayarlo o de realizar alguna acción, desde una petición DMCA hasta un informe de spam. Esperamos que esto te sirva de ayuda.