Cómo crear un archivo robots.txt para un sitio web - robots correctos

imprimir · Время на чтение: 11мин · por · Publicada · Actualizado

reproducirEscuchar artículo

Cómo crear un archivo robots.txt.

Instrucciones detalladas sobre cómo crear un archivo robots.txt para el sitio Robots.txt es uno de los aspectos más necesarios de una optimización completa del motor de búsqueda del sitio y la seguridad de tu sitio web. Al observar las condiciones para el uso adecuado de este archivo, puede lograr un cierto efecto positivo en el sitio.

Es posible especificar una variedad de instrucciones para la mayoría de los PS. Que indican al bot de búsqueda las restricciones o permisos necesarios sobre escanear páginas, directorios o secciones del sitio.

Archivo Robots.txt - Definición básica

Robots.txt - tiene ciertos estándares de excepción para agentes de búsqueda (bots), que se adoptó en enero de 1944. El archivo es algo así como un archivo. .htaccess (también prescribe las reglas). Las reglas de este archivo son seguidas voluntariamente por las PS más comunes. El archivo puede constar de una o más reglas, cada una de las cuales bloquea o permite que el rastreador acceda a determinadas rutas del sitio.

De forma predeterminada, este archivo no está en el sitio, lo que otorga a todos los PS permiso completo para indexar todo el contenido del sitio. Dicho permiso puede dar lugar a la inclusión de importantes páginas técnicas del sitio en el índice del motor de búsqueda, que no deberían estar allí.

¿Por qué necesitamos Robots.txt en el sitio? Su impacto en la promoción en los motores de búsqueda

Robots.txt es el factor más importante en la optimización de motores de búsqueda de un sitio. Gracias a un conjunto de reglas escritas correctamente para los robots de búsqueda, puede lograr un cierto aumento en la clasificación de un sitio en la búsqueda. ¿Qué dan estas instrucciones?

  1. Bloqueado para indexar ciertas páginas, secciones, directorios del sitio;
  2. Exclusión de páginas que no contienen contenido útil;
  3. Eliminación de páginas duplicadas y más.

Para la mayoría de los sitios, tales restricciones de indexación son simplemente necesarias; los sitios pequeños de página completa son opcionales. Sin embargo, se deben agregar ciertas directivas a cada sitio. Por ejemplo, prohibiciones de indexación:

  1. Páginas de registro, inicio de sesión de administrador, recuperación de contraseña;
  2. catálogos técnicos;
  3. Rss: fuentes del sitio;
  4. Replytocom y más.

Cómo crear un archivo Robors.txt usted mismo más ejemplos

Las dificultades para crear un archivo Robots.txt no pueden surgir ni siquiera para los principiantes. Es suficiente seguir una cierta secuencia de acciones:

  1. Robots.txt es un documento de texto y lo crea cualquier editor de texto disponible;
  2. La extensión del archivo debe ser .txt;
  3. El nombre es robots obligatorios;
  4. Por sitio, solo se permite un archivo de este tipo;
  5. Colocado solo en el directorio raíz del sitio;

Debe usar un editor de texto ordinario (el bloc de notas como alternativa). Creamos un documento .txt con el nombre robots. Luego guardamos y transferimos este documento usando un cliente FTP al directorio raíz del sitio. Estos son los principales pasos a seguir.

Ejemplos de Robots.txt estándar para CMS populares

Ejemplo de robots.txt para amiro.cms:

robots.txt para amiro.cms.

Un ejemplo de robots.txt para bitrix:

robots.txt para bitrix.

robots.txt para bitrix1.

Ejemplo de robots.txt para dle:

robots.txt para dle.

Drupal robots.txt ejemplo:

robots.txt para drupal.

robots.txt para drupal1.

Ejemplo de robots.txt para hostcms:

robots.txt para hostcms.

Ejemplo de robots.txt para joomla3:

robots.txt para joomla3.

Ejemplo robots.txt para joomla:

robots.txt para joomla.

Ejemplo de Robots.txt para modx evo:

robots.txt para modx evo.

Ejemplo de Robots.txt para modx:

robots.txt para modx.

Ejemplo de robots.txt para netcat:

robots.txt para netcat.

Ejemplo de robots.txt para opencat:

robots.txt para opencat.

Ejemplo de Robots.txt para typo3:

robots.txt para typo3.

Ejemplo de Robots.txt para umi:

robots.txt para umi.

Ejemplo robots.txt para wordpress:

robots.txt para wordpress.

Aquí hay un ejemplo de mi archivo de sitio CMS de WordPress:

# robots.txt
User-Agent: *
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */amp
Disallow: */amp?
Disallow: */amp/
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Mail.Ru
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: ia_archiver
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: SputnikBot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Bingbot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: */*/?amp
Allow: */tag/?amp
Allow: */page/?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: Yandex-Images
Allow: /wp-content/uploads/

User-agent: Mail.Ru-Images
Allow: /wp-content/uploads/

User-agent: ia_archiver-Images
Allow: /wp-content/uploads/

User-agent: Bingbot-Images
Allow: /wp-content/uploads/


Host: https://nicola.top
Sitemap: https://nicola.top/sitemap_index.xml
Sitemap: https://nicola.top/?feed=googleimagesitemap

Espero que te sea útil. Aplique las reglas de acuerdo con las consideraciones de su sitio. Cada recurso debe tener su propio enfoque.

Por el momento mi archivo está acortado a genérico. Puede familiarizarse con él yendo a nicola.top/robots.txt

Cómo crear un archivo Robots.txt usando servicios en línea

Este método es el más fácil y rápido, adecuado para aquellos que tienen miedo de crear Robots.txt por su cuenta o simplemente son perezosos. Hay muchos servicios que ofrecen la creación de este archivo. Pero vale la pena considerar algunos matices con respecto a este método. Por ejemplo:

  • Es necesario tener en cuenta de antemano qué es exactamente lo que quiere prohibir o permitir al agente.
  • Se requiere la verificación obligatoria del archivo terminado antes de cargarlo en el sitio.
  • Tenga cuidado, porque un archivo en línea Robots.txt creado incorrectamente conducirá a una situación deplorable. Por lo tanto, las páginas técnicas y otras del sitio, que a priori no deberían estar allí, pueden ingresar a la búsqueda.
  • De todos modos, es mejor dedicar tiempo y esfuerzo a crear un robot personalizado correcto. De esta forma, puede recrear una estructura bien fundamentada de prohibiciones y permisos apropiados para su sitio.

Edición y Sintaxis Correcta del Archivo Robots.txt

Después de crear Robots.txt con éxito, puede editarlo y cambiarlo fácilmente como desee. En este caso, se deben tener en cuenta algunas reglas y una sintaxis competente. Con el tiempo, cambiará este archivo repetidamente. Pero no olvide, después de editar, deberá cargar este archivo en el sitio. Así, actualizando su contenido para los robots de búsqueda.

Escribir Robots.txt es muy simple, la razón de esto es la estructura bastante simple del diseño de este archivo. Lo principal al escribir reglas es usar una sintaxis estrictamente definida. Estas reglas son seguidas voluntariamente por casi todos los principales EP. Aquí hay una lista de algunas reglas para evitar la mayoría de los errores en el archivo Robots.txt:

  1. No debe haber más de una directiva específica en una línea;
  2. Cada regla comienza en una nueva línea;
  3. Se ha eliminado un espacio al principio de una línea;
  4. Se permiten comentarios después del carácter #;
  5. Los robots vacíos contarán como permiso de indexación completo;
  6. El nombre de este archivo solo es posible en el formato válido "robots";
  7. El tamaño del archivo no debe exceder los 32 kb;
  8. Solo se permite una regla en las directivas Allow y Disallow. Un valor vacío después de Permitir: o No permitir: equivale a un permiso total;
  9. Todas las reglas deben escribirse en minúsculas;
  10. El archivo debe estar siempre disponible;
  11. Una línea vacía después de las reglas especificadas indica el final completo de las reglas de la directiva User-agent;
  12. Es deseable prescribir las reglas para cada PS por separado;
  13. Si la regla es un directorio de sitio, asegúrese de colocar una barra inclinada (/) antes de su comienzo;
  14. No debe haber comillas en una cadena o en una regla;
  15. Es necesario considerar una estructura estricta de reglas que no coincida más con su sitio;
  16. Robots.txt debe ser minimalista y transmitir claramente el significado previsto;

Configuración adecuada del archivo Robots.txt - ortografía correcta de los comandos

Para obtener un resultado positivo al usar robots, debe configurarlo correctamente. Todos los comandos principales de este archivo con instrucciones son seguidos por los motores de búsqueda más grandes, Google y Yandex. Otros EP pueden ignorar algunas instrucciones. ¿Cómo hacer que robots.txt responda mejor a la mayoría de los motores de búsqueda? Aquí debe comprender las reglas básicas para trabajar con este archivo, que se discutieron anteriormente.
Considere los comandos básicos:

  • Agente de usuario: * — las instrucciones se aplicarán a absolutamente todos los bots de ps. También es posible especificar ciertos motores de búsqueda por separado, por ejemplo: User-Agent: GoogleBot y User-Agent: YandexBot. Por lo tanto, las reglas para los PS importantes se designan correctamente.
  • Rechazar: - prohíbe completamente el rastreo y la indexación (de una página, directorio o archivos).
  • permitir: - permite rastrear e indexar completamente (de una página, directorio o archivos).
  • Parámetro limpio: - necesario para excluir las páginas del sitio con contenido dinámico. Gracias a esta regla, puedes deshacerte del contenido duplicado en el sitio.
  • Retraso de rastreo: - la regla especifica el intervalo de tiempo para que los p-bots descarguen documentos del sitio. Le permite reducir significativamente la carga en el servidor. Por ejemplo: "Crawl-delay: 5" le indicará al n-robot que no es posible descargar documentos del sitio más de una vez cada 5 segundos.
  • Anfitrión: your_site.ru - Responsable del espejo principal del sitio. En esta directiva, debe especificar la versión de prioridad del sitio.
  • Mapa del sitio: http://your_site.ru/sitemap.xml - como puede suponer, esta directiva le dice al p-bot sobre la disponibilidad de Sitemap En línea.
  • # - le permite dejar comentarios. Puede comentar solo después del signo de libra. Se puede colocar tanto en una nueva línea como en una continuación de la directiva. Los bots ignorarán todas estas opciones al pasar instrucciones.

Cómo verificar Robots.txt usando Google o Yandex

Por extraño que parezca, solo se necesitan los paneles de webmaster de Google o Yandex para verificar este archivo. Lo que a su vez hace que sea mucho más fácil encontrar errores.

  • Google Webmaster: seleccione "Escaneo" en el menú de la izquierda y luego la pestaña "Herramienta de verificación de archivos Robots.txt". Luego, en la línea inferior de la ventana que aparece, agregue el nombre del archivo. Luego haga clic en "Comprobar" y vea cómo el bot de Google ve sus robots.
  • Yandex Webmaster: en el menú de la izquierda, seleccione "Herramientas" y "Análisis de Robots.txt". Después de eso, en la ventana que aparece, simplemente haga clic en el botón "Verificar".

Vale la pena señalar que hay muchos validadores en línea para verificar este archivo. Hablé de los más asequibles que siempre están a mano.

Conclusión

Es imposible escribir un robot perfecto para todos los sitios. La razón de esto son los propios sitios, algunos de los cuales están hechos a mano y otros están ubicados en diferentes CMS. Absolutamente todos los sitios tienen una estructura de directorio diferente y otras cosas.

Por lo tanto, cada Webmaster simplemente está obligado a crear su propio conjunto único de reglas para p-bots. Dicho archivo cumplirá con sus prioridades y no le permitirá ingresar a la búsqueda de información confidencial. Gracias a esto, el índice tendrá contenido de alta calidad sin basura innecesaria. Le recomiendo que también configure los redireccionamientos necesarios en su sitio. Esto evitará duplicados, transferirá peso a las páginas necesarias.

Gracias por leer Nicola Top

¿Qué tan útil es la publicación?

¡Haz clic en el emoticón para calificar!

Puntuación media 5 / 5. Número de valoraciones: 81

Aún no hay valoraciones. Califique primero.

También te podría gustar...

1 respuesta

  1. Alycia dice:

    Disfruto, porque encontré exactamente lo que estaba buscando.
    ¡Terminaste mi cacería de cuatro días! Dios te bendiga hombre. Qué tengas un lindo día.
    Adiós

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

3 × cuatro =