Comment créer un fichier robots.txt pour un site Web - corriger les robots

imprimer · Время на чтение: 11мин · par · Publié · Mis à jour

reproduireÉcouter l'article

Comment créer un fichier robots.txt.

Instructions détaillées sur comment créer un fichier robots.txt pour site. Robots.txt est l'un des aspects les plus nécessaires d'une optimisation complète du site pour les moteurs de recherche et la sécurité de votre site Web. En respectant les conditions d'utilisation correcte de ce fichier, vous pouvez obtenir un certain effet positif sur le site.

Il est possible de spécifier une variété d'instructions pour la plupart des PS. Qui indiquent au bot de recherche les restrictions ou autorisations nécessaires sur scanner des pages, des répertoires ou des sections du site.

Fichier robots.txt - Définition de base

Robots.txt - a certaines normes d'exception pour les agents de recherche (bots), qui ont été adoptées en janvier 1944. Le fichier est quelque chose comme un fichier .htaccess (il prescrit également les règles). Les règles de ce fichier sont volontairement suivies par les PS les plus courantes. Le fichier peut être composé d'une ou plusieurs règles, chacune d'elles bloquant ou permettant au robot d'accéder à certains chemins sur le site.

Par défaut, ce fichier n'est pas sur le site - ce qui donne à tous les PS l'autorisation complète d'indexer tout le contenu du site. Une telle autorisation peut conduire à l'inclusion de pages techniques importantes du site dans l'index des moteurs de recherche, qui ne devraient pas s'y trouver.

Pourquoi avons-nous besoin de Robots.txt sur le site - son impact sur la promotion dans les moteurs de recherche

Robots.txt est le facteur le plus important dans l'optimisation d'un site pour les moteurs de recherche. Grâce à un ensemble de règles correctement rédigées pour les robots de recherche, vous pouvez obtenir une certaine augmentation du classement d'un site dans la recherche. Que donnent ces instructions :

  1. Verrouillé pour l'indexation de certaines pages, rubriques, répertoires du site ;
  2. Exclusion des pages qui ne contiennent pas de contenu utile ;
  3. Élimination des pages en double et plus encore.

Pour la plupart des sites, de telles restrictions d'indexation sont simplement nécessaires ; les petits sites d'une page entière sont facultatifs. Cependant, certaines directives doivent être ajoutées à chaque site. Par exemple, les interdictions d'indexation :

  1. Pages d'inscription, connexion administrateur, récupération de mot de passe ;
  2. Catalogues techniques ;
  3. RSS - flux du site ;
  4. Replytocom et plus encore.

Comment créer vous-même un fichier Robors.txt avec des exemples

Les difficultés de création d'un fichier Robots.txt ne peuvent pas survenir même pour les débutants. Il suffit de suivre une certaine séquence d'actions:

  1. Robots.txt est un document texte et est créé par n'importe quel éditeur de texte disponible ;
  2. L'extension de fichier doit être .txt ;
  3. Le nom est robots obligatoires ;
  4. Par site, un seul fichier de ce type est autorisé ;
  5. Placé uniquement dans le répertoire racine du site ;

Vous devez utiliser un éditeur de texte ordinaire (le bloc-notes comme alternative). Nous créons un document .txt avec le nom robots. Ensuite, nous sauvegardons et transférons ce document à l'aide d'un client FTP dans le répertoire racine du site. Ce sont les principales étapes à suivre.

Exemples de Robots.txt standard pour les CMS populaires

Exemple robots.txt pour amiro.cms :

robots.txt pour amiro.cms.

Un exemple de robots.txt pour bitrix :

robots.txt pour bitrix.

robots.txt pour bitrix1.

Exemple de robots.txt pour dle :

robots.txt pour dle.

Exemple Drupal robots.txt :

robots.txt pour drupal.

robots.txt pour drupal1.

Exemple de robots.txt pour hostcms :

robots.txt pour hostcms.

Exemple robots.txt pour joomla3 :

robots.txt pour joomla3.

Exemple robots.txt pour joomla :

robots.txt pour joomla.

Exemple robots.txt pour modx evo :

robots.txt pour modx evo.

Exemple robots.txt pour modx :

robots.txt pour modx.

Exemple de robots.txt pour netcat :

robots.txt pour netcat.

Exemple robots.txt pour opencat :

robots.txt pour opencat.

Exemple robots.txt pour typo3 :

robots.txt pour typo3.

Exemple robots.txt pour umi :

robots.txt pour umi.

Exemple robots.txt pour wordpress :

robots.txt pour wordpress.

Voici un exemple de mon fichier de site WordPress CMS :

# robots.txt
User-Agent: *
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */amp
Disallow: */amp?
Disallow: */amp/
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Mail.Ru
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: ia_archiver
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: SputnikBot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Bingbot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: */*/?amp
Allow: */tag/?amp
Allow: */page/?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: Yandex-Images
Allow: /wp-content/uploads/

User-agent: Mail.Ru-Images
Allow: /wp-content/uploads/

User-agent: ia_archiver-Images
Allow: /wp-content/uploads/

User-agent: Bingbot-Images
Allow: /wp-content/uploads/


Host: https://nicola.top
Sitemap: https://nicola.top/sitemap_index.xml
Sitemap: https://nicola.top/?feed=googleimagesitemap

J'espère qu'il vous sera utile. Veuillez appliquer les règles en fonction des considérations de votre site. Chaque ressource doit avoir sa propre approche.

Pour le moment, mon fichier est raccourci en générique. Vous pouvez en prendre connaissance en vous rendant sur nicola.top/robots.txt

Comment créer un fichier Robots.txt à l'aide de services en ligne

Cette méthode est la plus simple et la plus rapide, adaptée à ceux qui ont peur de créer eux-mêmes Robots.txt ou qui sont simplement paresseux. Il existe de nombreux services proposant la création de ce fichier. Mais il convient de considérer certaines nuances concernant cette méthode. Par exemple:

  • Il est nécessaire de prendre en compte à l'avance ce que vous souhaitez exactement interdire ou autoriser à l'agent.
  • Une vérification obligatoire du fichier fini est requise avant de le télécharger sur le site.
  • Attention, car un fichier en ligne Robots.txt mal créé conduira à une situation déplorable. Ainsi, les pages techniques et autres du site, qui a priori ne devraient pas s'y trouver, peuvent entrer dans la recherche.
  • Tout de même, il vaut mieux consacrer du temps et des efforts pour créer un robot personnalisé correct. De cette façon, vous pouvez recréer une structure bien fondée d'interdictions et d'autorisations adaptées à votre site.

Modification et correction de la syntaxe du fichier Robots.txt

Après avoir créé avec succès Robots.txt, vous pouvez facilement le modifier et le modifier à votre guise. Dans ce cas, certaines règles et une syntaxe compétente doivent être prises en compte. Au fil du temps, vous modifierez ce fichier à plusieurs reprises. Mais n'oubliez pas, après l'édition, vous devrez télécharger ce fichier sur le site. Ainsi, mettre à jour son contenu pour les robots de recherche.

L'écriture de Robots.txt est très simple, la raison en est la structure plutôt simple de la conception de ce fichier. L'essentiel lors de l'écriture de règles est d'utiliser une syntaxe strictement définie. Ces règles sont volontairement suivies par presque tous les principaux PS. Voici une liste de quelques règles pour éviter la plupart des erreurs dans le fichier Robots.txt :

  1. Il ne doit pas y avoir plus d'une directive spécifiée sur une ligne ;
  2. Chaque règle commence sur une nouvelle ligne ;
  3. Un espace en début de ligne a été supprimé ;
  4. Les commentaires sont autorisés après le caractère # ;
  5. Les robots vides compteront comme une autorisation d'indexation complète ;
  6. Le nom de ce fichier n'est possible qu'au format valide « robots » ;
  7. La taille du fichier ne doit pas dépasser 32 ko ;
  8. Une seule règle est autorisée dans les directives Autoriser et Interdire. Une valeur vide après Autoriser : ou Interdire : équivaut à une autorisation complète ;
  9. Toutes les règles doivent être écrites en minuscules;
  10. Le fichier doit toujours être disponible ;
  11. Une ligne vide après les règles spécifiées indique la fin complète des règles de la directive User-agent ;
  12. Il est souhaitable de prescrire séparément les règles pour chaque PS ;
  13. Si la règle est un répertoire de site, veillez à mettre une barre oblique (/) avant son début ;
  14. Il ne doit pas y avoir de guillemets dans une chaîne ou dans une règle ;
  15. Il est nécessaire de considérer une structure stricte de règles qui ne correspond plus à votre site ;
  16. Robots.txt doit être minimaliste et transmettre clairement le sens voulu ;

Configuration correcte du fichier Robots.txt - orthographe correcte des commandes

Pour obtenir un résultat positif lors de l'utilisation de robots, vous devez le configurer correctement. Toutes les commandes principales de ce fichier avec des instructions sont suivies par les plus grands moteurs de recherche Google et Yandex. D'autres PS peuvent ignorer certaines instructions. Comment rendre robots.txt plus réactif à la plupart des moteurs de recherche ? Ici, vous devez comprendre les règles de base pour travailler avec ce fichier, qui ont été discutées ci-dessus.
Considérez les commandes de base :

  • Agent utilisateur: * — les instructions s'appliqueront à absolument tous les bots ps. Il est également possible de spécifier séparément certains moteurs de recherche, par exemple : User-Agent : GoogleBot et User-Agent : YandexBot. Ainsi, les règles pour les SP importants sont correctement désignées.
  • Refuser: - interdit totalement le crawling et l'indexation (d'une page, d'un répertoire ou de fichiers).
  • Autoriser: - permet entièrement l'exploration et l'indexation (d'une page, d'un répertoire ou de fichiers).
  • Paramètres propres : - nécessaire pour exclure les pages du site avec un contenu dynamique. Grâce à cette règle, vous pouvez vous débarrasser du contenu dupliqué sur le site.
  • Délai d'exploration : - la règle précise l'intervalle de temps pour que les p-bots téléchargent les documents du site. Permet de réduire considérablement la charge sur le serveur. Par exemple : "Crawl-delay : 5" indiquera au n-robot que le téléchargement de documents depuis le site n'est pas possible plus d'une fois toutes les 5 secondes.
  • Hébergeur : votre_site.ru - Responsable du miroir principal du site. Dans cette directive, vous devez spécifier la version prioritaire du site.
  • Plan du site : http://votre_site.ru/sitemap.xml - comme vous pouvez le deviner, cette directive indique au p-bot sur la disponibilité de Sitemap En ligne.
  • # - permet de laisser des commentaires. Vous ne pouvez commenter qu'après le signe dièse. Elle peut être placée aussi bien sur une nouvelle ligne que dans le prolongement de la directive. Toutes ces options seront ignorées par les robots lors de la transmission des instructions.

Comment vérifier Robots.txt en utilisant Google ou Yandex

Curieusement, seuls les panels de webmasters Google ou Yandex sont nécessaires pour vérifier ce fichier. Ce qui facilite grandement la recherche d'erreurs.

  • Google Webmaster - sélectionnez "Scanning" dans le menu de gauche, puis l'onglet "Robots.txt File Check Tool". Ensuite, dans la ligne inférieure de la fenêtre qui apparaît, ajoutez le nom du fichier. Cliquez ensuite sur "Vérifier" et voyez comment le bot Google voit vos robots.
  • Yandex Webmaster - dans le menu de gauche, sélectionnez "Outils" et "Analyse de Robots.txt". Après cela, dans la fenêtre qui apparaît, cliquez simplement sur le bouton "Vérifier".

Il est à noter qu'il existe de nombreux validateurs en ligne pour vérifier ce fichier. J'ai parlé des plus abordables qui sont toujours à portée de main.

Conclusion

Il est impossible d'écrire un robot parfait pour tous les sites. La raison en est les sites eux-mêmes, dont certains sont faits à la main et d'autres sont situés sur différents CMS. Absolument tous les sites ont une structure de répertoire différente et d'autres choses.

Par conséquent, chaque Webmaster est simplement obligé de créer son propre ensemble de règles pour les p-bots. Un tel dossier répondra à vos priorités et ne vous permettra pas de vous lancer dans la recherche d'informations confidentielles. Grâce à cela, l'index contiendra un contenu de haute qualité sans déchets inutiles. Je vous recommande également de mettre en place les redirections nécessaires sur votre site. Cela évitera les doublons, transférera du poids sur les pages nécessaires.

Merci d'avoir lu Nicola Top

Quelle est l'utilité du poste ?

Cliquez sur le smiley pour noter !

note moyenne 5 / 5. Nombre de notes : 81

Il n'y a pas encore d'évaluations. Évaluez d'abord.

Vous aimerez aussi...

1 réponse

  1. Alycia dit :

    J'aime, parce que j'ai trouvé exactement ce que je cherchais.
    Vous avez mis fin à ma longue chasse de quatre jours ! Que Dieu vous bénisse mec. Passe une bonne journée.
    Au revoir

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

dix-neuf − 3 =