El Archivo robots.txt

archivo robots txt

El archivo robots.txt se utiliza para controlar si los motores de búsqueda de contenido pueden acceder en su sitio o no. Esto es excelente para controlar el contenido duplicado y para dirigir su presupuesto de rastreo a sus páginas más importantes. Es importante comprender que si tenemos contenido que se desea eliminar del índice de Google, al rechazar el contenido del archivo robots.txt solo evitará que Google acceda a él nuevamente, no eliminará el contenido del índice. Para ello tendremos que usar la etiqueta noindex. Ahora bien, avancemos a cómo utilizar comodines robots.txt

Cómo usar comodines en Robots.txt

También es interesante anotar como Google hace la declaración categórica por lo que la mayoría de las personas no tienen que preocuparse por el presupuesto de rastreo:

En primer lugar, me gustaría indicar que el presupuesto de rastreo, como se describe a continuación, no es algo de lo que la mayoría de los editores tengan que preocuparse. Si las nuevas páginas tienden a rastrearse el mismo día en que se publican, el presupuesto de rastreo no es algo en lo que los webmasters deban concentrarse. Del mismo modo, si un sitio tiene menos de unos pocos miles de URL, la mayoría del tiempo se rastreará de manera eficiente.

Si bien lo anterior es ser cierto para la mayoría de los sitios web, es probable que no lo sea para cualquier sitio web que sea lo suficientemente grande como para contratar un SEO. En informaciones técnicas, Google dice que no debes preocuparte por el presupuesto de rastreo … si tu sitio es menos que unos pocos miles de URLs … El presupuesto de rastreo es un factor importante que debes tener en cuenta para asegurarte de que te estás enfocando los recursos de rastreo en las páginas que son importantes.

Así entonces veremos que el uso de comodines de robots.txt es muy importante para controlar de manera efectiva el modo en que los motores de búsqueda rastrean. Si bien el formato típico en robots.txt evitará el rastreo de páginas en un directorio o una URL específica, el uso de caracteres de comodín en su archivo robots.txt permitirá evitar que los motores de búsqueda accedan a contenido basado en patrones en las URL, como un parámetro o la repetición de estos.

Antes de profundizar en los detalles de cómo usar comodines en robots.txt, tomemos un minuto para revisar los conceptos básicos de robots.txt.

Fundamentos de Robots.txt

Si queremos dar permisos a que todos los motores de búsqueda accedan a todo en el sitio, hay tres formas de hacerlo: con opciones como sigue, o simplemente dejando el archivo robots.txt vacío.

Cualquiera de estos permitirá que los motores de búsqueda hagan lo que quieran en un sitio web.

User-Agent: *
Disallow:

o

User-Agent: *
Allow: /

A la inversa, si deseas evitar que los motores de búsqueda accedan a cualquier contenido del sitio web, debes usar lo de a continuación. Esto es excelente para los sitios de desarrollo y los sitios que se están construyendo, a los que no desea permitir que accedan los motores de búsqueda, pero casi nunca se requiere este comando en un sitio online.

User-agent: *
Disallow: /

Si quieres permitir el acceso a diferentes motores de búsqueda específicos, puedes usar el comando user-agent para hacer esto. En los ejemplos anteriores, simplemente decimos “user-agent: *”, lo que significa que todos los motores de búsqueda deben obedecer los siguientes comandos. El siguiente ejemplo le permite a Google acceder a todo el sitio, mientras que Yandex no puede acceder a nada.

User-agent: Googlebot
Disallow:

Usuario-agent: Yandex:
Disallow: /

Para evitar el rastreo de un directorio, simplemente especifica el directorio en lugar de la raíz, /.

User-agent: *
Disallow: / directorio /

Cómo usar los comodines para archivo Robots.txt

Bien, ahora que hemos las bases, ¿por qué querría usar comodines robots.txt? analicemos cómo usarlos y algunos ejemplos básicos de robots.txt.

Hay un par de cosas que necesitamos saber sobre el uso de un comodín en robots.txt por adelantado.

No es necesario agregar un comodín a cada cadena en tu archivo robots.txt. Se implica que si bloqueas /esta-carpeta/, deseas bloquear todo en este directorio y no necesitas del comodín (v. gr. /esta-carpeta/ *).

Google admite dos tipos diferentes de comodines para robots.txt:

* Comodines de Asterisco

El carácter comodín * coincidirá con cualquier secuencia de caracteres. Esto nos será muy útil cuando que hay patrones de URL claros que desees rechazar, como filtros y parámetros.
$ comodines.

El carácter comodín $ se usa en robots.txt para indicar el final de una URL. Esto es útil para hacer coincidir tipos de archivos específicos, como .pdf$.

Casos de uso comunes para comodines robots.txt:

Bloquear a los motores de búsqueda el acceso a cualquier URL que tenga un “?”:

User-Agent: *
Disallow: /*?

Impide que los motores de búsqueda rastreen cualquier URL en una página de resultados de búsqueda (v. gr. /s?Kw=)

User-Agent: *
Disallow: /s?Kw=*

Impidir que los motores de búsqueda rastreen cualquier URL con el parámetro ?Color=, excepto para ?Color=azul

User-Agent: *
Disallow: /?Color
Allow: /
?Color=azul

Bloquear los motores de búsqueda de las fuentes de comentarios en WordPress

User-Agent: *
Disallow: /comments/feed/

Bloquear a los motores de búsqueda las URL que rastrean en un directorio secundario común como en el uso de temas hijo…

User-Agent: *
Disallow: /*/child/

Bloquear los motores de búsqueda para que no puedan rastrear las URL en un directorio específico con guiones bajos _ esto es muy útil para evitar la mala puntuación en los resultados de puntuación de SEO de mal uso de URL’s…

User-Agent: *
Disallow: / directorio / * – * – * –

No permitir que los motores de búsqueda rastreen cualquier URL que termine con “.pdf”: ten en cuenta que si hay parámetros adjuntos a la URL, este comodín no evitará el rastreo ya que la URL ya no termina con “.pdf”…

User-Agent: *
No permitir: /*.pdf$

En Resumen, validar los comodines en Robots.txt antes de lanzarlos online

Siempre será buena idea hacer la revisión de los comodines de robots.txt antes de dar click al botón y realizar actualizaciones en vivo en este archivo tan importante robots.txt. Ya que sabemos que agregar un / a tu archivo robots.txt evitará que los motores de búsqueda indexen todo el sitio, des esta forma no hay margen de error. Los errores podrían resultar negativos y nos puede llevar tiempo en la recuperación. Te recomiendo en tu trabajo verificar y usar las herramientas para prueba del archivo Robots.txt de Google Search Console.

 

Bibliografía:

Especificaciones de robots.txt, Google

https://developers.google.com/search/reference/robots_txt?hl=es

https://geoffkenyon.com/how-to-use-wildcards-robots-txt/

https://builtvisible.com/wildcards-in-robots-txt/

One thought on “El Archivo robots.txt

Deja un comentario