¿Qué es y para qué sirve el robots.txt?

Seguro que alguna vez has oído hablar de arañas en Internet y de que los motores de búsqueda visitan todos los sitios web con frecuencia, pero no sabes a que se refieren ni por qué rastrean su contenido.

Los buscadores disponen de unos robots o máquinas con las que pueden rastrear los diferentes sitios web para clasificar e indexar tanta información como sea posible en su base de datos. Los robots.txt son los escogidos para indexar el contenido web. Las personas que envían spam habitualmente, conocidos como spammers, los utilizan para conseguir rastrear direcciones electrónicas, aunque también se pueden utilizar para rastrear sitios XML o incluso para bloquear los accesos a archivos de código y directorios.

Todo lo que engloba a los robots.txt es muy apasionante y por ello hoy, en este artículo, vas a comprender mucho más sobre ellos. Veremos qué son, cuál es su funcionamiento, cómo puedes crearlos, para qué sirven y cuáles son las funcionalidades más características de estos ficheros robtots.txt.

¿Qué es robots.txt?

Los robots de este tipo que más se conocen son Yahoo_Slurp, MsnBot (que es el del buscador Bing) y GoogleBot (que, por supuesto, es el del buscador de Google). Estos robots añaden en un índice los contenidos que descubren y, posteriormente, valoran y deciden su indexación o no en los resultados de búsqueda.

Cuando se crea un nuevo sitio web es necesario que Google pueda acceder a las páginas que lo componen y rastrear toda la información que contiene. Para ello necesitas crear un archivo con la extensión ‘.txt’ en tu dominio, para hacerle llegar al buscador toda la información que quieres que conozca sobre tu negocio.

Este archivo, además, se utiliza para impedir que los bots puedan agregar información que no quieres compartir con Google. Esto es posible porque el archivo utiliza el estándar de exclusión de bots, mediante el  cual se indica el acceso a los sitios web por sección y por tipos más específicos de rastreadores web.

¿Cómo puedo crear el archivo robots.txt?

Para crear el archivo robots.txt hay que darle acceso a la raíz del dominio y subir el archivo en formato ‘.txt’ o texto con el nombre ‘robots.txt’. ¿Dónde? En el directorio raíz de primer nivel del servidor en el que se ubica la página web que se pretende indexar.

Para crear el archivo tanto en Mac como en Windows vas a encontrar archivos de texto plano. Para comprobar que funciona tienes en Search Console una herramienta realmente interesante para hacerlo. Googlebot procederá a leer el archivo y te indicará si existen errores que debas solucionar.

¿Para qué sirve el robots.txt?

El robots.txt es un archivo gracias al cual se facilita la indexación de un sitio web. Con dicho archivo das instrucciones a los robots acerca de los contenidos que deben o no rastrear y cómo hacerlo de la manera correcta.

¿Cuáles son las características del archivo robots.txt?

Es un archivo con una serie de características muy específicas:

Este fichero ha de ser único. A no se que existan subdominios, en cuyo caso se deberían añadir para cada uno de ellos un fichero robots.txt y otro para el dominio principal.

– Hay que tener cuidado con los espacios en blanco y con las URL, ya que este archivo es sensible a mayúsculas y minúsculas.

– Este documento se debe crear en un documento de texto sin formato.

– El fichero hay que subirlo a la raíz del sitio web porque es donde se va a buscar.

– En el fichero robots.txt se debe mencionar la ruta del sitemap. Es decir, es necesario añadir otro fichero que contenga todas las URL del sitio.

No modificar el nombre del archivo ‘robots.txt’ para que los bots lo encuentren con facilidad.

¿Cómo usar Robots.txt?

El archivo ‘robots.txt’ utiliza varios comandos:

User-Agent

Se utiliza para informar a qué robot se le aplica la regla escrita. Si escribimos ‘user-agent:*’ la regla sirve para cualquier robot. Pero si por el contrario utilizamos ‘user-agent:Googlebot’ la regla solo es válida para el bot de Google específico para web.

Disallow

Se utiliza para limitar la indexación de archivos, por ejemplo, se puede utilizar para quitar contenido del sitio web. En caso de querer bloquear el sitio por completo sería simplemente así: Disallow: /

Si quieres bloquear un directorio o una página deberías hacerlo así: Disallow: //  y a continuación de las barras deberás colocar la url de la página o directorio a bloquear.

Si no quieres que se indexe todo el contenido del directorio de imágenes puedes escribir ‘disallow: /imágenes/’

Sitemap

Indicará el mapa del sitio en XML.

Allow

Es lo contrario del comando disallow. Es decir, permite el acceso a directorios y páginas y se puede usar de forma total o parcial para sobreescribir el comando disallow.

Crawl- delay

En esta ocasión, el comando ofrece información sobre los segundos de carga entre cada página, lo cual afecta directamente al SEO.

Funcionalidades del fichero robots.txt

El funcionamiento de los robots.txt está limitado y hay sistemas para que las direcciones web se puedan encontrar en la web. Las instrucciones son indicaciones y no son definitivas.

Una de las funcionalidades es que algunas partes del sitio web puedan rastrearse o indexarse por los buscadores. Algunos de los ejemplos más claros serían los pasos en una pasarela de pago, retornos de formularios o la intranet.

Puede evitar que se indexe contenido duplicado. Por ejemplo, si tienes una página de productos y utilizas una landing page o página de aterrizaje para atraer a los usuarios, podrías evitar la duplicidad de contenido si le dices al robot que no indexe la landing.

Para concluir

Google se utiliza para buscar información a diario sobre cualquier tipo de solución o información que necesites en un momento dado, debido a que es muy sencillo de utilizar.

Los buscadores necesitan información y quieren conocer el máximo posible acerca tanto de las páginas web que existen como también de las personas. Es decir, son muy codiciosos con la cantidad de información y conocimiento que pueden manejar, por eso es tan importante conocer que es robots.txt y cuál es su funcionamiento.

Espero que te haya sido de ayuda el artículo. ¿Te ha quedado alguna duda? ¿Conoces alguna funcionalidad o dato más sobre el archivo robots.txt? Escríbeme en los comentarios 😄

5/5 - (1 voto)