Tip:
Highlight text to annotate it
X
La pregunta de hoy es de Kunal Pradhan.
Por cierto que soy del oeste de Kentucky, así que disculpadme porque a veces
soy terrible para los nombres.
La pregunta es: "Google rastrea el sitio A cada hora y
el sitio B una vez al día.
El sitio B escribe un artículo y el sitio A lo copia,
y cambia la marca de tiempo.
Googlebot rastrea primero el sitio A.
A los ojos de Google, ¿cuál es el contenido original
y por tanto merecerá la mejor clasificación?
Y si es A, entonces, ¿es eso justo para el sitio B?"
Podría hablarte de un montón de detalles interesantes sobre cómo
se rastrea la Web.
Si realmente quieres ver cómo es una señal, la frecuencia de Nyquist te indica
que debes muestrearla por lo menos al doble de esa frecuencia.
Pero la realidad es que siempre puedes cambiar una página web.
Así que la idea completa, el concepto de poder
rastrear toda la Web y disponer de una copia perfecta en cada
instante, tiene sus inconvenientes, porque en un momento dado solo
podemos ir y recoger un número
finito y determinado de páginas.
Si intentásemos recuperarlas todas, y nuestra arquitectura casi sería capaz
de ello, entonces acabaríamos por bloquearlo todo debido
a todas esas peticiones.
Así que intentamos rastrear de una forma bastante respetuosa.
También intentamos priorizar, basándonos en cosas como la clasificación de una
página en particular, o si un sitio tiene un
PageRank muy alto.
Así que la pregunta es, esencialmente, si A se rastrea a menudo
pero el artículo original viene de B, ¿qué pasa si A está robando
el contenido de B?
Bien: siempre hay formas de ayudarte a protegerte
contra esto.
Por ejemplo, si envías un Tweet, la gente puede verlo,
enlazar a él, y nosotros podemos seguir esos enlaces más de prisa,
antes de descubrir el contenido en el otro sitio.
Otra cosa que puedes hacer es usar cosas como
Pub SubHubbub, que a su vez hace ping en distintos lugares.
En muy pocos casos usamos Pub
SubHubbub para ayudarnos a mejorar el rastreo, y esto
puede cambiar con el tiempo.
Es una forma excelente de, en algún modo, decir, de forma asíncrona:
hola, aquí hay un nuevo artículo, o una nueva entrada en un post.
Pero sigamos y veamos qué pasaría en este
escenario hipotético.
Si A ha copiado tu artículo y ha cambiado la marca de tiempo,
esto es un poco fraudulento, como si dijesen que lo han
escrito ellos.
En este caso, puedes hacer un par de cosas.
En primer lugar, si eres el autor del artículo, siempre puedes hacer
lo que se conoce como aviso de Digital Millennium Copyright Act,
en que envías esta solicitud de DMCA, y puedes
encontrar la información correspondiente en http://www.google.es/dmca.html.
Con esto, básicamente dices que este sitio ha copiado tu contenido,
pero tú eres el autor original.
Este sitio puede enviar una contranotificación, lo cual significa
que rechazan tal afirmación.
Dicen que ellos escribieron esa página, lo cual acarrearía penalizaciones
en caso de que mintiesen.
O bien, pueden no discutir esa afirmación y quitar ese contenido
de su sitio.
Así que, si alguien te está robando el contenido,
siempre puedes realizar un aviso DMCA.
También puedes, si se trata de un sitio generado automáticamente,
y están robando el contenido de varias personas,
hacer un informe de spam, puesto que eso no sería
un sitio de alta calidad. No es el tipo de cosas que queremos
en nuestro índice.
Pero aclaremos el caso que nos ocupa.
En teoría, es posible que encontremos un artículo
en un sitio antes de encontrarlo en el otro.
Así que realmente se da el caso de tener problemas para determinar
quién es el creador original de una parte de contenido
en particular, pero no podemos decir que somos perfectos.
Hacemos todo lo que se nos ocurre para tratar de averiguar
de qué modo puede indicarnos la gente que es autora de
cierto contenido.
De hecho, en Google News hemos introducido un par de etiquetas nuevas,
casi como un experimento para ver qué tal funcionan,
para indicarnos: aquí está el autor original
de este contenido.
Éstas son las aproximaciones que exploramos intentando
encontrar otras fórmulas para conseguirlo.
Por lo menos hasta el momento, en teoría, es posible
tener un artículo.
En la práctica, no pasa a menudo, y existen formas de soslayarlo
o de realizar alguna
acción, desde una petición DMCA hasta un
informe de spam.
Esperamos que esto te sirva de ayuda.