Canonical Tag y contenido duplicado

  • Por
Cómo decirle a Google cuál es la URL que preferimos que indexe, para que no nos penalicen si nuestro sitio tiene contenido duplicado en varias URL.
Los chicos de Google han ingeniado una nueva etiqueta que se puede utilizar en sitios web que tengan contenido duplicado. Se trata de una etiqueta que tiene el nombre de Canonical Tag, que sirve para indicar al buscador cuál de las páginas de nuestro sitio tiene el contenido original y cuál es un duplicado.

Como probablemente sabremos una de las tareas que Google se ha tomando más en serio, desde hace años, es la de detectar y penalizar el contenido duplicado. ¿Qué es el contenido duplicado? Pues son dos páginas que tienen similar o prácticamente el mismo texto y/o imágenes. ¿Cómo puedo tener contenido duplicado en mi sitio? Pues generalmente, si tienes un sitio web organizado, no deberías tener contenido duplicado, pero debido a los distintos gestores de contenido que circulan por la Red, ocurre en muchos casos que una misma página tiene dos URL para acceder al mismo contenido.

Por ejemplo, en nuestra página podemos tener dos URL como estas:

www.dominio.com/producto.php?id=23
www.dominio.com/producto.php?id=23&categoria=navegadores
www.dominio.com/producto.php?id=23&categoria=navegadores&sessionid=2323232

Quizás estas dos páginas tendrán la descripción del producto con id=23, pero puede que en la primera URL se muestre la descripción tal cual y en la segunda se muestre dentro de una categoría en concreto. Quizás el contenido sea exactamente igual, simplemente cambiando en la cabecera de la página. Incluso, en el caso de la URL que pasa el parámetro de sessionid, que se genera automáticamente para pasar el identificador de sesión entre diferentes páginas de un sitio (esto en el caso que ocurra, puesto que es debido a una configuración del servidor web donde esté alojada la página), puede ser un problema que nosotros no hemos causado, pero que puede estar perjudicando igualmente.

Por poner otro ejemplo:

www.miwebdeviajes.com/pueblos/las_rozas.html
www.miwebdeviajes.com/espana/madrid/las_rozas.html

Quizás estas dos páginas muestren el contenido del pueblo Las Rozas de Madrid, pero en la primera URL se muestra en la sección de pueblos y en la segunda URL se muestra en la sección del país España y provincia Madrid.

Como decía, si tú eres el que has desarrollado la página web, deberías haber hecho un sistema que no duplicase contenido en distintas URL. Al menos eso sería lo óptimo, pero ya sea por desconocimiento de las penalizaciones por contenido duplicado o porque utilizas un gestor de contenidos que duplica un mismo texto en varias URL, puede que tu sitio esté mal considerado por buscadores, principalmente Google.

Solución al contenido duplicado con Canonical Tag

Lo que podemos hacer en estos casos es utilizar una etiqueta nueva, que los de Google se han sacado de la manga, puesto que no es HTML estándar, por lo que los navegadores no harán nada con ella, pero al menos sí es controlada por el buscador para saber cuál de las dos o más URL con contenido duplicado es la original y cuál es la copia.

Este tag se crea con la etiqueta link, que sí forma parte del HTML, pero donde se colocan valores de atributos que no existían previamente y que han sido ingeniados por Google.

<link rel="canonical" href="www.dominio.com/producto.php?id=23" />

El atributo rel="canonical" indica que vamos a decir cuál es la URL canónica.
En el atributo href tiene que ponerse el valor de la URL canónica, es decir, la URL que tiene el contenido original.

Esta etiqueta se tiene que poner en el HEAD del código HTML y debe aparecer en todas las páginas que tengan el contenido duplicado.

Por supuesto, en la página original el href del Link rel=canonical será la propia URL de la página y en las duplicadas será la URL de la página original.

El Tag Canonical le dirá a Google cuál es la dirección original y el buscador podrá eliminar las URL duplicadas de su base de datos y transferir los valores de Pagerank a la página original. Es muy previsible que en poco tiempo otros buscadores reconozcan esas etiquetas y las utilicen para refinar los resultados de las búsquedas.

Autor

Miguel Angel Alvarez

Miguel es fundador de DesarrolloWeb.com y la plataforma de formación online EscuelaIT. Comenzó en el mundo del desarrollo web en el año 1997, transformando su hobby en su trabajo.

Compartir

Comentarios

Eos

27/3/2009
Me estoy preguntado hasta que punto puede esto afectar a las web que diseñamos para clientes que son una tienda virtual y que tienen la mitad de su sitio duplicado ya que una parte es para el público y la otra es para venta al mayor.

La zona de la web para venta al mayor está dentro de un directorio principal que pide usuario y clave, y esta web de paso, tiene la etiqueta de no-index

eso debería bastar, ¿no?

La verdad es que normalmente google index bastante bien las webs que realizamos y nunca hemos visto que mostrara páginas de directorios protegidos por clave.

Un saludo.