Solución de Google al contenido duplicado
Autor: aartiles | Archivado en: Buscadores, SEO el día 13/Feb/2009
Deprecated: Function eregi() is deprecated in /home/bitacora/public_html/wp-content/plugins/wp-codebox/main.php on line 171
Deprecated: Function eregi() is deprecated in /home/bitacora/public_html/wp-content/plugins/wp-codebox/main.php on line 171
Después de tantos consejos y avisos sobre los aspectos perjudiciales del contenido duplicado, Google ha decidido establecer un estándar para especificar cuál es nuestro contenido original y cual es contenido duplicado. Hasta ahora solo nos daba esta posibilidad a través de sus Herramientas para Webmasters donde podemos especificar cuál de nuestros dominios es el preferido, ej: www.midominio.com o midominio.com.
Pero ahora lo podemos hacer para cada página a través del tag link con el atributo rel=”canonical” en el head del código HTML de cada página. Así tendremos más control sobre este aspecto que tantas directivas de .htaccess y de robots.txt nos ha hecho experimentar.
1 | <link rel="canonical" href="http://www.example.com/pagina-interna.php" /> |
Basta con que pongamos en las páginas de contenido duplicado el tag link con el atributo href apuntando a la URL canónica, o sea a la URL del contenido original. Cuando Google se encuentra con esto asumirá que es contenido duplicado y pasará toda la información del Pagerank a la URL canónica especificada. A pesar de esto, el algoritmo de Google se basa en otros aspectos que podrían prevalecer sobre esta indicación en caso de algún error o contradicción.
Algunas aclaraciones válidas:
- Esta indicación es solo válidad para páginas del mismo dominio o subdominios. Si deseamos resolver algún problema de contenido duplicado entre páginas de diferentes dominios entonces debemos usar el “Permanent Redirect 301”.
- Hasta ahora esta es una solución solo para Google, los demás buscadores no se han pronunciado al respecto. Por lo que no nos podemos fiar del todo de este método.
- Las URLs canónicas pueden especificarse como caminos relativos y Google los sabrá interpretar correctamente.
1
<link rel="canonical" href="pagina-interna.php" />
- Las páginas no tienen que ser exactamente iguales para considerarse contenido duplicado, grandes porciones coincidentes o diferencias de orden serán tomadas en cuenta.
- No pasa nada si la URL canónica especificada no está indexada aun, Google lo resolverá después de indexada,… me atrevería a asegurar que esto ayudará a que se indexe antes.
Si queréis ver un ejemplo funcionando podéis mirar el código fuente de wikia.com. Probémoslo a ver qué tal y discutamos si realmente funciona.
Fuente: Google Webmaster Central












Por fin se bajan del burro y simplifican el trabajo. Como dices, no pocos .htaccess y robots.txt cuesta seguir las directrices de google para que después de tener los deberes hechos te quiten de enmedio sin aviso, con nocturnidad y alevosia,,, :)
Mi contenido duplicado eran un par de posts que coincidian con el titulo del blog en alguna palabra! increible, ¿todo el resto del trabajo que?. Como suele pasar, después de un mes y sin tocar nada todo se “recoloca” a su estado anterior.
Pienso probar el canonical.
Por cierto que los links del email enviado por la central de google son 404 casi todos…quizás deba ser asi jaja
[...] unos meses vimos la propuesta de estándar para especificar desde el código HTML cual es la URL canónica de cada página, hoy veremos otra vía para evitar el contenido [...]