Comment créer un fichier robots.txt pour un site Web - corriger les robots

imprimer · Время на чтение: 11мин · par · Publié · Mis à jour

jouerÉcoutez cet article

Comment créer un fichier robots.txt.

Instructions détaillées sur comment créer un fichier robots.txt pour site. Robots.txt est l'un des aspects les plus essentiels d'une optimisation de moteur de recherche à part entière du site et de la sécurité de votre site. En respectant les conditions d'utilisation correcte de ce fichier, vous pouvez obtenir un certain effet positif sur le site.

Il est possible de spécifier une variété d'instructions pour la plupart des PS. Qui indiquent au robot de recherche les restrictions ou autorisations nécessaires pour scanner des pages, des répertoires ou des sections du site.

Le contenu de l'article :

Fichier robots.txt - Définition de base

Robots.txt - a certaines normes d'exception pour les agents de recherche (bots), qui ont été adoptées en janvier 1944. Le fichier rappelle quelque peu le fichier .htaccess (des règles y sont également écrites). Les règles de ce fichier sont volontairement suivies par les PS les plus courantes. Le fichier peut être composé d'une ou plusieurs règles, chacune d'elles bloquant ou permettant au robot d'accéder à certains chemins sur le site.

Par défaut, ce fichier n'est pas sur le site - ce qui donne à tous les PS l'autorisation complète d'indexer tout le contenu du site. Une telle autorisation peut conduire à l'inclusion de pages techniques importantes du site dans l'index des moteurs de recherche, qui ne devraient pas s'y trouver.

Pourquoi avons-nous besoin de Robots.txt sur le site - son impact sur la promotion dans les moteurs de recherche

Robots.txt est le facteur le plus important dans l'optimisation d'un site pour les moteurs de recherche. Grâce à un ensemble de règles correctement rédigées pour les robots de recherche, vous pouvez obtenir une certaine augmentation du classement d'un site dans la recherche. Que donnent ces instructions :

  1. Verrouillé pour l'indexation de certaines pages, rubriques, répertoires du site ;
  2. Exclusion des pages qui ne contiennent pas de contenu utile ;
  3. Élimination des pages en double et plus encore.

Pour la plupart des sites, de telles restrictions d'indexation sont simplement nécessaires ; les petits sites d'une page entière sont facultatifs. Cependant, certaines directives doivent être ajoutées à chaque site. Par exemple, les interdictions d'indexation :

  1. Pages d'inscription, connexion administrateur, récupération de mot de passe ;
  2. Catalogues techniques ;
  3. RSS - flux du site ;
  4. Replytocom et plus encore.

Comment créer vous-même un fichier Robors.txt avec des exemples

Les difficultés de création d'un fichier Robots.txt ne peuvent pas survenir même pour les débutants. Il suffit de suivre une certaine séquence d'actions:

  1. Robots.txt est un document texte et est créé par n'importe quel éditeur de texte disponible ;
  2. L'extension de fichier doit être .txt ;
  3. Le nom est robots obligatoires ;
  4. Par site, un seul fichier de ce type est autorisé ;
  5. Placé uniquement dans le répertoire racine du site ;

Vous devez utiliser un éditeur de texte ordinaire (le bloc-notes comme alternative). Nous créons un document .txt avec le nom robots. Ensuite, nous sauvegardons et transférons ce document à l'aide d'un client FTP dans le répertoire racine du site. Ce sont les principales étapes à suivre.

Exemples de Robots.txt standard pour les CMS populaires

Exemple robots.txt pour amiro.cms :

robots.txt pour amiro.cms.

Un exemple de robots.txt pour bitrix :

robots.txt pour bitrix.

robots.txt pour bitrix1.

Exemple de robots.txt pour dle :

robots.txt pour dle.

Exemple Drupal robots.txt :

robots.txt pour drupal.

robots.txt pour drupal1.

Exemple de robots.txt pour hostcms :

robots.txt pour hostcms.

Exemple robots.txt pour joomla3 :

robots.txt pour joomla3.

Exemple robots.txt pour joomla :

robots.txt pour joomla.

Exemple robots.txt pour modx evo :

robots.txt pour modx evo.

Exemple robots.txt pour modx :

robots.txt pour modx.

Exemple de robots.txt pour netcat :

robots.txt pour netcat.

Exemple robots.txt pour opencat :

robots.txt pour opencat.

Exemple robots.txt pour typo3 :

robots.txt pour typo3.

Exemple robots.txt pour umi :

robots.txt pour umi.

Exemple robots.txt pour wordpress :

robots.txt pour wordpress.

Voici un exemple de mon fichier de site WordPress CMS :

# robots.txt User-Agent : * Interdire : /wp-json/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /template.html Interdire : /wp-admin Interdire : */trackback Interdire : */comments* Interdire : *comments_* Interdire : /search Interdire : /author/* Interdire : /users/ Interdire : /*?replytocom Interdire : /*?replytocom* Interdire : /comment-page * Interdire : */tag/* Interdire : /tag/* Interdire : /?s=* Interdire : /?s= Interdire : */feed Interdire : */rss Interdire : */embed Interdire : /?p= Interdire : *.php Interdire : /ads.txt Interdire : */stylesheet Interdire : */stylesheet* Autoriser : /wp-content/uploads/ Autoriser : /wp-includes Autoriser : /wp-content Autoriser : */uploads Autoriser : /* /*.js Autoriser : /*/*.css Autoriser : /wp-*.png Autoriser : /wp-*.jpg Autoriser : /wp-*.jpeg Autoriser : /wp-*.gif Autoriser : /wp-admin /admin-ajax.php Agent utilisateur : Yandex Interdire : /wp-json/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /template.html Interdire : /wp -admin Interdire : */trackback Interdire : */comments* Interdire : *comments_* Interdire : /search Interdire : /author/* Interdire : /users/ Interdire : /*?replytocom Interdire : /*?replytocom* Interdire : /comment -page* Interdire : */tag/* Interdire : /tag/* Interdire : /?s=* Interdire : /?s= Interdire : */feed Interdire : */rss Interdire : */embed Interdire : /?s= Interdire : /?p= Interdire : *.php Interdire : /ads.txt Interdire : */amp Interdire : */amp ? Interdire : */amp/ Interdire : */stylesheet Interdire : */stylesheet* Autoriser : /wp-content/uploads/ Autoriser : /wp-includes Autoriser : /wp-content Autoriser : */uploads Autoriser : /*/*. js Autoriser : /*/*.css Autoriser : /wp-*.png Autoriser : /wp-*.jpg Autoriser : /wp-*.jpeg Autoriser : /wp-*.gif Autoriser : /wp-admin/admin- ajax.php Agent utilisateur : Mail.Ru Interdire : /wp-json/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /template.html Interdire : /wp- admin Interdire : */trackback Interdire : */comments* Interdire : *comments_* Interdire : /search Interdire : /author/* Interdire : /users/ Interdire : /*?replytocom Interdire : /*?replytocom* Interdire : /commentaire- page* Interdire : */tag/* Interdire : /tag/* Interdire : /?s=* Interdire : /?s= Interdire : */feed Interdire : */rss Interdire : */embed Interdire : /?s= Interdire : /?p= Interdire : *.php Interdire : /ads.txt Interdire : */stylesheet Interdire : */stylesheet* Autoriser : /wp-content/uploads/ Autoriser : /wp-includes Autoriser : /wp-content Autoriser : */uploads Autoriser : /*/*.js Autoriser : /*/*.css Autoriser : /wp-*.png Autoriser : /wp-*.jpg Autoriser : /wp-*.jpeg Autoriser : /wp-*. gif Autoriser : /wp-admin/admin-ajax.php Agent utilisateur : ia_archiver Interdire : /wp-json/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : / template.html Interdire : /wp-admin Interdire : */trackback Interdire : */comments* Interdire : *comments_* Interdire : /search Interdire : /author/* Interdire : /users/ Interdire : /*?replytocom Interdire : /* ?replytocom* Interdire : /comment-page* Interdire : */tag/* Interdire : /tag/* Interdire : /?s=* Interdire : /?s= Interdire : */feed Interdire : */rss Interdire : */ embed Interdire : /?s= Interdire : /?p= Interdire : *.php Interdire : /ads.txt Interdire : */stylesheet Interdire : */stylesheet* Autoriser : */?amp Autoriser : /wp-content/uploads/ Autoriser : /wp-includes Autoriser : /wp-content Autoriser : */uploads Autoriser : /*/*.js Autoriser : /*/*.css Autoriser : /wp-*.png Autoriser : /wp-*.jpg Autoriser : /wp-*.jpeg Autoriser : /wp-*.gif Autoriser : /wp-admin/admin-ajax.php Agent utilisateur : SputnikBot Interdire : /wp-json/ Interdire : /wp-login.php Interdire : / wp-register.php Interdire : /xmlrpc.php Interdire : /template.html Interdire : /wp-admin Interdire : */trackback Interdire : */comments* Interdire : *comments_* Interdire : /search Interdire : /auteur/* Interdire : /users/ Interdire : /*?replytocom Interdire : /*?replytocom* Interdire : /comment-page* Interdire : */tag/* Interdire : /tag/* Interdire : /?s=* Interdire : /?s= Interdire : */feed Interdire : */rss Interdire : */embed Interdire : /?s= Interdire : /?p= Interdire : *.php Interdire : /ads.txt Interdire : */stylesheet Interdire : */stylesheet* Autoriser : */?amp Autoriser : /wp-content/uploads/ Autoriser : /wp-includes Autoriser : /wp-content Autoriser : */uploads Autoriser : /*/*.js Autoriser : /*/*.css Autoriser : / wp-*.png Autoriser : /wp-*.jpg Autoriser : /wp-*.jpeg Autoriser : /wp-*.gif Autoriser : /wp-admin/admin-ajax.php Agent utilisateur : Bingbot Interdire : /wp -json/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /template.html Interdire : /wp-admin Interdire : */trackback Interdire : */comments* Interdire : *comments_* Interdire : /search Interdire : /author/* Interdire : /users/ Interdire : /*?replytocom Interdire : /*?replytocom* Interdire : /comment-page* Interdire : */tag/* Interdire : /tag/ * Interdire : /?s=* Interdire : /?s= Interdire : */feed Interdire : */rss Interdire : */embed Interdire : /?s= Interdire : /?p= Interdire : *.php Interdire : /ads .txt Interdire : */stylesheet Interdire : */stylesheet* Autoriser : */?amp Autoriser : /wp-content/uploads/ Autoriser : /wp-includes Autoriser : /wp-content Autoriser : */uploads Autoriser : /*/ *.js Autoriser : /*/*.css Autoriser : /wp-*.png Autoriser : /wp-*.jpg Autoriser : /wp-*.jpeg Autoriser : /wp-*.gif Autoriser : /wp-admin/ admin-ajax.php Agent utilisateur : Googlebot Interdire : /wp-json/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /template.html Interdire : /wp- admin Interdire : */trackback Interdire : */comments* Interdire : *comments_* Interdire : /search Interdire : /author/* Interdire : /users/ Interdire : /*?replytocom Interdire : /*?replytocom* Interdire : /commentaire- page* Interdire : */tag/* Interdire : /tag/* Interdire : /?s=* Interdire : /?s= Interdire : */feed Interdire : */rss Interdire : */embed Interdire : /?s= Interdire : /?p= Interdire : *.php Interdire : */stylesheet Interdire : */stylesheet* Autoriser : */?amp Autoriser : */*/?amp Autoriser : */tag/?amp Autoriser : */page/? amp Autoriser : /wp-content/uploads/ Autoriser : /wp-includes Autoriser : /wp-content Autoriser : */uploads Autoriser : /*/*.js Autoriser : /*/*.css Autoriser : /wp-*. png Autoriser : /wp-*.jpg Autoriser : /wp-*.jpeg Autoriser : /wp-*.gif Autoriser : /wp-admin/admin-ajax.php Agent utilisateur : Googlebot-Image Autoriser : /wp-content /uploads/ User-agent : Yandex-Images Allow : /wp-content/uploads/ User-agent : Mail.Ru-Images Allow : /wp-content/uploads/ User-agent : ia_archiver-Images Allow : /wp-content /uploads/ User-agent : Bingbot-Images Allow : /wp-content/uploads/ Host : https://nicola.top Plan du site : https://nicola.top/sitemap_index.xml Plan du site : https://nicola.top /?feed=googleimagesitemap

J'espère qu'il vous sera utile. Veuillez appliquer les règles en fonction des considérations de votre site. Chaque ressource doit avoir sa propre approche.

Pour le moment, mon fichier est raccourci en générique. Vous pouvez en prendre connaissance en vous rendant sur nicola.top/robots.txt

Comment créer un fichier Robots.txt à l'aide de services en ligne

Cette méthode est la plus simple et la plus rapide, adaptée à ceux qui ont peur de créer eux-mêmes Robots.txt ou qui sont simplement paresseux. Il existe de nombreux services proposant la création de ce fichier. Mais il convient de considérer certaines nuances concernant cette méthode. Par exemple:

  • Il est nécessaire de prendre en compte à l'avance ce que vous souhaitez exactement interdire ou autoriser à l'agent.
  • Une vérification obligatoire du fichier fini est requise avant de le télécharger sur le site.
  • Attention, car un fichier en ligne Robots.txt mal créé conduira à une situation déplorable. Ainsi, les pages techniques et autres du site, qui a priori ne devraient pas s'y trouver, peuvent entrer dans la recherche.
  • Tout de même, il vaut mieux consacrer du temps et des efforts pour créer un robot personnalisé correct. De cette façon, vous pouvez recréer une structure bien fondée d'interdictions et d'autorisations adaptées à votre site.

Modification et correction de la syntaxe du fichier Robots.txt

Après avoir créé avec succès Robots.txt, vous pouvez facilement le modifier et le modifier à votre guise. Dans ce cas, certaines règles et une syntaxe compétente doivent être prises en compte. Au fil du temps, vous modifierez ce fichier à plusieurs reprises. Mais n'oubliez pas, après l'édition, vous devrez télécharger ce fichier sur le site. Ainsi, mettre à jour son contenu pour les robots de recherche.

L'écriture de Robots.txt est très simple, la raison en est la structure plutôt simple de la conception de ce fichier. L'essentiel lors de l'écriture de règles est d'utiliser une syntaxe strictement définie. Ces règles sont volontairement suivies par presque tous les principaux PS. Voici une liste de quelques règles pour éviter la plupart des erreurs dans le fichier Robots.txt :

  1. Il ne doit pas y avoir plus d'une directive spécifiée sur une ligne ;
  2. Chaque règle commence sur une nouvelle ligne ;
  3. Un espace en début de ligne a été supprimé ;
  4. Les commentaires sont autorisés après le caractère # ;
  5. Les robots vides compteront comme une autorisation d'indexation complète ;
  6. Le nom de ce fichier n'est possible qu'au format valide « robots » ;
  7. La taille du fichier ne doit pas dépasser 32 ko ;
  8. Une seule règle est autorisée dans les directives Autoriser et Interdire. Une valeur vide après Autoriser : ou Interdire : équivaut à une autorisation complète ;
  9. Toutes les règles doivent être écrites en minuscules;
  10. Le fichier doit toujours être disponible ;
  11. Une ligne vide après les règles spécifiées indique la fin complète des règles de la directive User-agent ;
  12. Il est souhaitable de prescrire séparément les règles pour chaque PS ;
  13. Si la règle est un répertoire de site, veillez à mettre une barre oblique (/) avant son début ;
  14. Il ne doit pas y avoir de guillemets dans une chaîne ou dans une règle ;
  15. Il est nécessaire de considérer une structure stricte de règles qui ne correspond plus à votre site ;
  16. Robots.txt doit être minimaliste et transmettre clairement le sens voulu ;

Configuration correcte du fichier Robots.txt - orthographe correcte des commandes

Pour obtenir un résultat positif lors de l'utilisation de robots, vous devez le configurer correctement. Toutes les commandes principales de ce fichier avec des instructions sont suivies par les plus grands moteurs de recherche Google et Yandex. D'autres PS peuvent ignorer certaines instructions. Comment rendre robots.txt plus réactif à la plupart des moteurs de recherche ? Ici, vous devez comprendre les règles de base pour travailler avec ce fichier, qui ont été discutées ci-dessus.
Considérez les commandes de base :

  • Agent utilisateur: * — les instructions s'appliqueront à absolument tous les bots ps. Il est également possible de spécifier séparément certains moteurs de recherche, par exemple : User-Agent : GoogleBot et User-Agent : YandexBot. Ainsi, les règles pour les SP importants sont correctement désignées.
  • Refuser: - interdit totalement le crawling et l'indexation (d'une page, d'un répertoire ou de fichiers).
  • Autoriser: - permet entièrement l'exploration et l'indexation (d'une page, d'un répertoire ou de fichiers).
  • Paramètres propres : - nécessaire pour exclure les pages du site avec un contenu dynamique. Grâce à cette règle, vous pouvez vous débarrasser du contenu dupliqué sur le site.
  • Délai d'exploration : - la règle précise l'intervalle de temps pour que les p-bots téléchargent les documents du site. Permet de réduire considérablement la charge sur le serveur. Par exemple : "Crawl-delay : 5" indiquera au n-robot que le téléchargement de documents depuis le site n'est pas possible plus d'une fois toutes les 5 secondes.
  • Hébergeur : votre_site.ru - Responsable du miroir principal du site. Dans cette directive, vous devez spécifier la version prioritaire du site.
  • Plan du site : http://votre_site.ru/sitemap.xml - comme vous pouvez le deviner, cette directive informe le p-bot de la présence d'un sitemap sur le site.
  • # - permet de laisser des commentaires. Vous ne pouvez commenter qu'après le signe dièse. Elle peut être placée aussi bien sur une nouvelle ligne que dans le prolongement de la directive. Toutes ces options seront ignorées par les robots lors de la transmission des instructions.

Comment vérifier Robots.txt en utilisant Google ou Yandex

Curieusement, seuls les panels de webmasters Google ou Yandex sont nécessaires pour vérifier ce fichier. Ce qui facilite grandement la recherche d'erreurs.

  • Google Webmaster - sélectionnez "Scanning" dans le menu de gauche, puis l'onglet "Robots.txt File Check Tool". Ensuite, dans la ligne inférieure de la fenêtre qui apparaît, ajoutez le nom du fichier. Cliquez ensuite sur "Vérifier" et voyez comment le bot Google voit vos robots.
  • Yandex Webmaster - dans le menu de gauche, sélectionnez "Outils" et "Analyse de Robots.txt". Après cela, dans la fenêtre qui apparaît, cliquez simplement sur le bouton "Vérifier".

Il est à noter qu'il existe de nombreux validateurs en ligne pour vérifier ce fichier. J'ai parlé des plus abordables qui sont toujours à portée de main.

Conclusion

Il est impossible d'écrire un robot parfait pour tous les sites. La raison en est les sites eux-mêmes, dont certains sont faits à la main et d'autres sont situés sur différents CMS. Absolument tous les sites ont une structure de répertoire différente et d'autres choses.

Par conséquent, chaque Webmaster est simplement obligé de créer son propre ensemble de règles pour les p-bots. Un tel dossier répondra à vos priorités et ne vous permettra pas de vous lancer dans la recherche d'informations confidentielles. Grâce à cela, l'index contiendra un contenu de haute qualité sans déchets inutiles. Je vous recommande également de mettre en place les redirections nécessaires sur votre site. Cela évitera les doublons, transférera du poids sur les pages nécessaires.

Lire cet article :

Merci d'avoir lu : SEO HELPER | NICOLA.TOP

À quel point ce message vous a-t-il été utile ?

Cliquez sur une étoile pour la noter !

Note moyenne 5 / 5. Décompte des voix : 219

Aucun vote pour l'instant ! Soyez le premier à noter ce post.

Vous aimerez aussi...

5 réponses

  1. Alycia dit :

    J'aime, parce que j'ai trouvé exactement ce que je cherchais.
    Vous avez mis fin à ma longue chasse de quatre jours ! Que Dieu vous bénisse mec. Passe une bonne journée.
    Bye

  2. Dessie dit :

    Ahaa, c'est un dialogue agréable concernant ce post à cet endroit sur ce blog, j'ai lu
    tout ça, alors maintenant je commente aussi à cet endroit.

  3. Nicolas dit :

    Si vous souhaitez accroître votre connaissance, continuez à visiter ce site Web et soyez informé des dernières nouvelles.
    mise à jour publiée ici.

  4. Ana dit :

    Bonjour, j'aime lire tout votre article. Je voulais écrire un petit commentaire pour vous soutenir.

  5. Luigi dit :

    Bonjour très beau site !! Mec.. Excellent.. Merveilleux..
    Je vais ajouter votre site Web à vos favoris et prendre les flux en plus ?
    Je suis heureux de trouver de nombreuses informations utiles ici dans cet article, nous devons développer davantage de stratégies à cet égard,
    Merci pour le partage. . . . . .

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

9 + sept =