Robots.txt

  • Por
Explicamos el porqué del archivo robots.txt y como se construye dicho archivo.
En este artículo vamos a explicar el archivo robots.txt, pero antes que nada tenemos que comentar lo que son los robots y qué función cumplen dentro de la red de redes.

Un robot es un programa más o menos complicado que se dedica a rastrear nuestras páginas web y guardar su contenido en una base de datos y seguir los enlaces que tengamos a otras páginas web. Esto nos beneficia pero también nos puede perjudicar, ya que a veces no nos conviene que se indexen ciertas páginas de nuestras webs.

Actualmente los robots actúan de tal forma que lo primero que hacen es buscar en la raíz de nuestra página si tenemos un archivo llamado robots.txt, si lo encuentra lo lee y sigue las directrices que en él se encuentran, si no lo encuentra empieza a rastrear toda la web.

Por este tema es importante crear bien este archivo y pensar que páginas queremos que sean rastreadas y cuáles no, ya que las que no sean rastreadas no serán indexadas en los navegadores.

Crear el archivo robots.txt

Este archivo es muy fácil de construir tan solo tienes que saber ciertas pautas y podrás hacerlo sin problema.

robots.txt puede construirse para que se aplique solo a los robots de determinados buscadores.

Pasamos a escribir un ejemplo para ir explicando las posibilidades:

User-agent: * # aplicable a todos los robots
Disallow: / # impide la indexacion de todas las paginas

En este ejemplo los robots no podrían indexar ninguna pagina del dominio.
User-agent lo que nos dice es a que robots se les aplica las características que le siguen debajo. Si usamos el * estamos diciendo que esas reglas son aplicables para todos los robots. Pero también podemos hacerlo para determinados robots, como ves en el siguiente ejemplo:

User-agent: lycra
User-agent: BadBot
Disallow: /

En este ejemplo los robots lucra y BadBot tendría prohibida la indexación de cualquier pagina del dominio.

El disallow nos dice los archivos o carpetas que queremos que no sean indexadas. De esta forma podríamos hacer un archivo como este:

User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs

Este ejemplo lo que haría sería prohibir la indexación de la carpeta logs y el archive prueba.html a todos los robots.

Con esto ya podríamos realizar un archivo robots.txt perfectamente válido, pero también existen términos para determinar en qué horas queremos que esos robots rastreen nuestras páginas. La forma de construirlo es la siguiente:

Visit-time: 0300-0400 #esta opción obligaría a rastrear las paginas solo de 3 am a 4 am

Recuerda que las horas siempre se colocan en Greenwitch

Por otro lado podemos decirle que indexe una página o varias cada equis tiempo, para ello se utiliza la siguiente sintaxis:

Request-rate: 1/30

Siendo el 1 el número de documentos a rastrear y el 30 el tiempo que transcurre entre un rastreo y el siguiente.

Es importante saber que no puedes dejar líneas en blanco ya que no funcionaria, el robots dejaría de leer en el momento que encuentra la línea en blanco.

Otro aspecto que no he comentado antes pero que habréis notado es que los comentarios ser realizan utilizando la #.

Un ejemplo completo seria el siguiente:

User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs
Visit-time: 0300-0400

Esto permitirá a todos los robots rastrear todas las paginas menos prueba.html y la carpeta logs, además solo podrían indexar de 3 de la mañana a 4.

Espero que esta ayuda sobre el archivo robots.txt haya resultado ilustradora.

Autor

Sara Alvarez

Equipo DesarrolloWeb.com

Compartir

Comentarios

Chuibaca

29/9/2009
Robots.txt
El ejemplo esta chevere, pero no comentas donde o en que parte de mi archivo html lo inserto. Podrias dar un ejemplo mas ilustrado....Gracias de antemano.

Eneas

03/10/2009
RE:Robots.txt
No lo insertás en ningún archivo html.. Creás un archivo llamado "robots.txt" con el bloc de notas o el programa que te guste, le copiás el contenido, lo guardás y finalmente lo subís a la carpeta raíz de tu sitio..

Chuibaca

05/10/2009
Gracias Eneas
Chevere brother....Gracias y Suerte

Eleaet

17/10/2009
Donde se coloca
Opino igual que ibarbul, en que parte del documento html lo ubico.???.

aslejo

27/10/2011
lugar
ahi en la explicacion dice que los motores rastrean en la raiz para encontrar el archivo
asi que el archivo no se pone dentro de algun codigo fuente solo se pone en la raiz de la pagina.

cesar_rodriguez_lopez

19/9/2012
Se pueden hacer comentarios en este archivo?
Mi pregunta es si puedo comentar una linea como en un htaccess o algo asi

User-agent: *
Disallow: /tmp/prueba.html
#Disallow: /logs
#Visit-time: 0300-0400