Saltar al contenido

¿Cuál es la función del archivo robots txt?

¿Necesito un archivo robots txt?

Puede haber muchas razones por las que quiera personalizar su archivo robots.txt: desde controlar el presupuesto de rastreo hasta bloquear secciones de un sitio web para que no sean rastreadas e indexadas. Exploremos ahora algunas razones para utilizar un archivo robots.txt.

Bloquear todos los rastreadores para que no accedan a su sitio no es algo que desee hacer en un sitio web activo, pero es una gran opción para un sitio web de desarrollo. Al bloquear los rastreadores ayudará a evitar que sus páginas se muestren en los motores de búsqueda, lo cual es bueno si sus páginas no están listas para ser vistas todavía.

Una de las formas más comunes y útiles de utilizar su archivo robots.txt es limitar el acceso de los robots de los motores de búsqueda a partes de su sitio web. Esto puede ayudar a maximizar su presupuesto de rastreo y evitar que las páginas no deseadas terminen en los resultados de búsqueda.

Es importante tener en cuenta que el hecho de que le haya dicho a un bot que no rastree una página, no significa que no vaya a ser indexada. Si no quiere que una página aparezca en los resultados de búsqueda, debe añadir una etiqueta meta noindex a la página.

Subir robots txt a google

A pesar de la existencia de normas de Robots.txt bastante autoexplicativas, tutoriales completos y consejos avanzados, el tema de Robots.txt sigue siendo a menudo mal entendido y mal utilizado. Por lo tanto, he decidido resumir el tema dando los tres usos más comunes del archivo para que la gente se refiera a él cuando esté perdida.

La pregunta que se hace a menudo aquí es por qué utilizarlo. Bueno, no es necesario pero sí recomendable utilizarlo por la simple razón de que los bots de búsqueda lo solicitarán de todos modos (esto significa que verás errores 404 en tus archivos de registro de los bots solicitando tu inexistente página Robots.txt). Además, tener un Robots.txt por defecto garantizará que no haya ningún malentendido entre su sitio y un rastreador.

El uso más común de Robots.txt es prohibir a los rastreadores que visiten carpetas privadas o contenido que no les proporcione información adicional. Esto se hace principalmente para ahorrarle tiempo al rastreador: los bots rastrean con un presupuesto – si usted se asegura de que no pierda tiempo en contenido innecesario, rastreará su sitio más profunda y rápidamente.

Robots txt impiden el rastreo

El estándar de exclusión de robots, también conocido como protocolo de exclusión de robots o simplemente robots.txt, es un estándar utilizado por los sitios web para comunicarse con los rastreadores web y otros robots web. El estándar especifica cómo informar al robot web sobre qué áreas del sitio web no deben ser procesadas o escaneadas. Los robots suelen ser utilizados por los motores de búsqueda para clasificar los sitios web. No todos los robots cooperan con la norma; los recolectores de correo electrónico, los spambots, los programas maliciosos y los robots que escanean en busca de vulnerabilidades de seguridad pueden incluso empezar con las partes del sitio web en las que se les ha dicho que se mantengan al margen. La norma puede utilizarse junto con los sitemaps, una norma de inclusión de robots en los sitios web.

El estándar fue propuesto por Martijn Koster,[1][2] cuando trabajaba para Nexor[3] en febrero de 1994[4] en la lista de correo www-talk, el principal canal de comunicación para las actividades relacionadas con la WWW en aquella época. Charles Stross afirma haber provocado a Koster para que sugiriera robots.txt, después de que escribiera un rastreador web de mal comportamiento que provocó inadvertidamente un ataque de denegación de servicio al servidor de Koster[5].

Agente de usuario de los robots

Descripción del componente:Una vez que el archivo esté completo y listo, guárdelo con el nombre «robots.txt» (esto es importante, no utilice otro nombre) y súbalo al directorio raíz del sitio web. Esto permitirá que el archivo robots.txt haga su trabajo.Nota: El archivo robots.txt es accesible para todo el mundo en Internet. Todo el mundo puede ver el nombre de los agentes de usuario y archivos permitidos y no permitidos. Aunque nadie puede abrir los archivos, sólo se muestran los nombres de los archivos.Para comprobar el archivo robots.txt de un sitio web,

¿Cómo funciona el archivo robots.txt? Cuando se busca algo en cualquier motor de búsqueda, el bot de búsqueda (que es el agente de usuario) encuentra el sitio web para mostrar los resultados. Pero antes de mostrarlo, o incluso de indexarlo, busca el archivo robots.txt del sitio web, si lo hay. Si lo hay, el robot de búsqueda lo revisa para comprobar los sitios permitidos y no permitidos en el sitio web. Ignora todos los sitios no permitidos que se encuentran en el archivo y pasa a mostrar los contenidos permitidos en los resultados. Así, sólo puede ver los contenidos permitidos por el propietario del sitio web.Ejemplo:

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad