Saltar al contenido

¿Dónde está mi archivo robots txt?

Ejemplo de Robots.txt

Si usted es miembro de un equipo de marketing o un desarrollador de sitios web, querrá que su sitio se vea en los resultados de las búsquedas. Y para aparecer en los resultados de búsqueda necesita que su sitio web y sus distintas páginas web sean rastreadas e indexadas por los robots de los motores de búsqueda.

El archivo Robots.txt es un simple archivo de texto que se coloca en el directorio raíz de su sitio. Este archivo utiliza un conjunto de instrucciones para indicar a los robots de los motores de búsqueda qué páginas de su sitio web pueden rastrear y cuáles no.

El archivo robots.txt también puede utilizarse para bloquear el acceso de determinados robots al sitio web. Por ejemplo, si un sitio web está en desarrollo, puede tener sentido bloquear el acceso de los robots hasta que esté listo para su lanzamiento.

El archivo robots.txt suele ser el primer lugar que visitan los rastreadores al acceder a un sitio web. Incluso si quiere que todos los robots tengan acceso a todas las páginas de su sitio web, es una buena práctica añadir un archivo robots.txt que lo permita.

Por ejemplo, puede querer que los motores de búsqueda accedan a todas las entradas de su blog para que aparezcan en los resultados de búsqueda. Sin embargo, es posible que no quiera que tengan acceso a sus páginas de etiquetas, ya que éstas pueden no ser buenas páginas de destino y, por lo tanto, no deberían incluirse en los resultados de búsqueda.

Subir robots txt a google

Puede haber muchas razones por las que desee personalizar su archivo robots.txt: desde controlar el presupuesto de rastreo hasta bloquear secciones de un sitio web para que no se rastreen ni indexen. Exploremos ahora algunas razones para utilizar un archivo robots.txt.

Bloquear todos los rastreadores para que no accedan a su sitio no es algo que desee hacer en un sitio web activo, pero es una gran opción para un sitio web de desarrollo. Al bloquear los rastreadores ayudará a evitar que sus páginas se muestren en los motores de búsqueda, lo cual es bueno si sus páginas no están listas para ser vistas todavía.

Una de las formas más comunes y útiles de utilizar su archivo robots.txt es limitar el acceso de los robots de los motores de búsqueda a partes de su sitio web. Esto puede ayudar a maximizar su presupuesto de rastreo y evitar que las páginas no deseadas terminen en los resultados de búsqueda.

Es importante tener en cuenta que el hecho de que le haya dicho a un bot que no rastree una página, no significa que no vaya a ser indexada. Si no quiere que una página aparezca en los resultados de búsqueda, debe añadir una etiqueta meta noindex a la página.

Robots.txt deshabilita todo

Cuando un motor de búsqueda rastrea (visita) su sitio web, lo primero que busca es su archivo robots.txt. Este archivo indica a los motores de búsqueda lo que deben y no deben indexar (guardar y poner a disposición del público como resultados de búsqueda). También puede indicar la ubicación de su mapa del sitio XML. A continuación, el motor de búsqueda envía su «bot» o «robot» o «araña» para que rastree su sitio tal y como se indica en el archivo robots.txt (o para que no lo envíe, si le ha dicho que no puede hacerlo).

Tenga en cuenta que el archivo robots.txt funciona como una señal de «No pasar». Indica a los robots si quiere que rastreen su sitio o no. En realidad, no bloquea el acceso. Los robots honestos y legítimos respetarán su directiva sobre si pueden visitarlo o no. Los bots deshonestos pueden simplemente ignorar el archivo robots.txt.

El archivo robots.txt debe estar en la carpeta raíz de su documento. Puede simplemente crear un archivo en blanco y llamarlo robots.txt. Esto reducirá los errores del sitio y permitirá que todos los motores de búsqueda clasifiquen lo que quieran.

También puede evitar que los robots rastreen partes de su sitio mientras les permite rastrear otras secciones. El siguiente ejemplo pediría a los motores de búsqueda y a los robots que no rastreen la carpeta cgi-bin, la carpeta tmp y la carpeta junk, y todo lo que haya en esas carpetas de su sitio web.

Tamaño de los robots txt

Si estás en un nicho altamente competitivo con un sitio grande, probablemente. Sin embargo, si estás empezando tu primer blog, la construcción de enlaces a tu contenido y la creación de muchos artículos de alta calidad son prioridades mayores.

El archivo Robots.txt suele estar en la carpeta raíz del sitio. Tendrás que conectarte a tu sitio usando un cliente FTP o usando el administrador de archivos de tu cPanel para verlo. Se trata de un archivo de texto normal que puede abrir con el Bloc de notas.

Si no tiene un archivo robots.txt en el directorio raíz de su sitio, puede crear uno. Todo lo que tiene que hacer es crear un nuevo archivo de texto en su ordenador y guardarlo como robots.txt. A continuación, cárguelo en la carpeta raíz de su sitio.

Ten en cuenta que si utilizas un plugin como Yoast o All in One SEO, puede que no necesites añadir la sección del mapa del sitio, ya que intentan hacerlo automáticamente. Si falla, puedes añadirlo manualmente como en el ejemplo anterior.

Sin embargo, le recomiendo que no permita el archivo readme.html en su archivo robots.txt. Este archivo readme puede ser utilizado por alguien que intente averiguar qué versión de WordPress está utilizando. Si se trata de una persona, puede acceder fácilmente al archivo simplemente navegando hasta él. Además, poner una etiqueta disallow puede bloquear ataques maliciosos.

Esta web utiliza cookies propias para su correcto funcionamiento. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad