Een robots.txt-bestand voor een website maken - correcte robots

afdrukken · Probeer het eens: 11мин · Автор: · Опубликовано · Обновлено

reproducerenLuister naar artikel

Een robots.txt-bestand maken.

Gedetailleerde instructies op hoe je een robots.txt-bestand maakt voor locatie. Robots.txt is een van de meest noodzakelijke aspecten van een volwaardige zoekmachineoptimalisatie van de site en uw websitebeveiliging. Door de voorwaarden voor het juiste gebruik van dit bestand in acht te nemen, kunt u een bepaald positief effect op de site bereiken.

Voor de meeste PS's is het mogelijk om verschillende instructies op te geven. Die de zoekbot de nodige beperkingen of toestemmingen geven scannen van pagina's, mappen of delen van de site.

Robots.txt-bestand - Basisdefinitie

Robots.txt - heeft bepaalde uitzonderingsnormen voor zoekagenten (bots), die in januari 1944 zijn aangenomen. Het bestand is zoiets als een bestand .htaccess (het schrijft ook de regels voor). De regels van dit bestand worden vrijwillig gevolgd door de meest voorkomende PS. Het bestand kan uit een of meer regels bestaan, die elk de crawler toegang tot bepaalde paden op de site blokkeren of toestaan.

Standaard staat dit bestand niet op de site - wat alle PS's volledige toestemming geeft om alle inhoud van de site te indexeren. Een dergelijke toestemming kan ertoe leiden dat belangrijke technische pagina's van de site worden opgenomen in de index van de zoekmachine, die daar niet zouden moeten staan.

Waarom hebben we Robots.txt op de site nodig - de impact ervan op promotie in zoekmachines

Robots.txt is de belangrijkste factor bij zoekmachineoptimalisatie van een site. Dankzij een goed geschreven set regels voor zoekbots, kunt u een bepaalde verhoging van de positie van een site in de zoekresultaten bereiken. Wat geven deze instructies:

  1. Vergrendeld voor het indexeren van bepaalde pagina's, secties, mappen van de site;
  2. Uitsluiting van pagina's die geen nuttige inhoud bevatten;
  3. Verwijdering van dubbele pagina's en meer.

Voor de meeste sites zijn dergelijke indexeringsbeperkingen gewoon noodzakelijk; kleine paginagrote sites zijn optioneel. Aan elke site moeten echter bepaalde richtlijnen worden toegevoegd. Bijvoorbeeld verboden op indexering:

  1. Registratiepagina's, admin-login, wachtwoordherstel;
  2. Technische catalogi;
  3. RSS - sitefeeds;
  4. Replytocom en meer.

Hoe u zelf een Robors.txt-bestand maakt plus voorbeelden

Moeilijkheden bij het maken van een Robots.txt-bestand kunnen zelfs voor beginners niet voorkomen. Het is voldoende om een bepaalde reeks acties te volgen:

  1. Robots.txt is een tekstdocument en wordt gemaakt door elke beschikbare teksteditor;
  2. De bestandsextensie moet .txt zijn;
  3. De naam is verplichte robots;
  4. Per site is slechts één zo'n bestand toegestaan;
  5. Alleen geplaatst in de hoofdmap van de site;

U moet een gewone teksteditor gebruiken (kladblok als alternatief). We maken een .txt-document aan met de naam robots. Vervolgens slaan we dit document op en verplaatsen het met behulp van een FTP-client naar de hoofdmap van de site. Dit zijn de belangrijkste te volgen stappen.

Voorbeelden van standaard Robots.txt voor populaire CMS

Robots.txt voorbeeld voor amiro.cms:

robots.txt voor amiro.cms.

Een voorbeeld van robots.txt voor bitrix:

robots.txt voor bitrix.

robots.txt voor bitrix1.

Robots.txt voorbeeld voor dle:

robots.txt voor dle.

Drupal robots.txt voorbeeld:

robots.txt voor drupal.

robots.txt voor drupal1.

Robots.txt voorbeeld voor hostcms:

robots.txt voor hostcms.

Robots.txt voorbeeld voor joomla3:

robots.txt voor joomla3.

Voorbeeld robots.txt voor joomla:

robots.txt voor joomla.

Robots.txt voorbeeld voor modx evo:

robots.txt voor modx evo.

Robots.txt voorbeeld voor modx:

robots.txt voor modx.

Robots.txt voorbeeld voor netcat:

robots.txt voor netcat.

Robots.txt voorbeeld voor opencat:

robots.txt voor opencat.

Robots.txt voorbeeld voor typo3:

robots.txt voor typo3.

Robots.txt voorbeeld voor umi:

robots.txt voor umi.

Voorbeeld robots.txt voor wordpress:

robots.txt voor wordpress.

Hier is een voorbeeld van mijn WordPress CMS-sitebestand:

# robots.txt
User-Agent: *
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */amp
Disallow: */amp?
Disallow: */amp/
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Mail.Ru
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: ia_archiver
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: SputnikBot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Bingbot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: */*/?amp
Allow: */tag/?amp
Allow: */page/?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: Yandex-Images
Allow: /wp-content/uploads/

User-agent: Mail.Ru-Images
Allow: /wp-content/uploads/

User-agent: ia_archiver-Images
Allow: /wp-content/uploads/

User-agent: Bingbot-Images
Allow: /wp-content/uploads/


Host: https://nicola.top
Sitemap: https://nicola.top/sitemap_index.xml
Sitemap: https://nicola.top/?feed=googleimagesitemap

Ik hoop dat het nuttig voor je zal zijn. Pas de regels toe volgens de overwegingen van uw site. Elke bron moet zijn eigen aanpak hebben.

Op dit moment is mijn dossier ingekort tot generiek. U kunt er kennis mee maken door naar nicola.top/robots.txt te gaan

Een Robots.txt-bestand maken met behulp van online services

Deze methode is de gemakkelijkste en snelste, geschikt voor degenen die bang zijn om zelf Robots.txt te maken of gewoon lui zijn. Er zijn veel services die het maken van dit bestand aanbieden. Maar het is de moeite waard om enkele nuances met betrekking tot deze methode te overwegen. Bijvoorbeeld:

  • Het is noodzakelijk om van tevoren rekening te houden met wat u de agent precies wilt verbieden of toestaan.
  • Verplichte verificatie van het voltooide bestand is vereist voordat het naar de site wordt geüpload.
  • Wees voorzichtig, want een verkeerd aangemaakt Robots.txt online bestand leidt tot een deplorabele situatie. Zo kunnen technische en andere pagina's van de site, die er a priori niet zouden moeten zijn, in de zoekopdracht komen.
  • Toch is het beter om tijd en moeite te besteden aan het maken van een correcte aangepaste robot. Op deze manier kunt u een goed onderbouwde structuur van verboden en machtigingen creëren die geschikt is voor uw site.

Bewerken en correcte syntaxis van het bestand Robots.txt

Nadat u Robots.txt met succes hebt gemaakt, kunt u het eenvoudig bewerken en wijzigen zoals u wilt. In dit geval moet rekening worden gehouden met enkele regels en competente syntaxis. Na verloop van tijd zult u dit bestand herhaaldelijk wijzigen. Maar vergeet niet dat u dit bestand na het bewerken naar de site moet uploaden. Dus het bijwerken van de inhoud voor zoekrobots.

Het schrijven van Robots.txt is heel eenvoudig, de reden hiervoor is de vrij eenvoudige structuur van het ontwerp van dit bestand. Het belangrijkste bij het schrijven van regels is het gebruik van een strikt gedefinieerde syntaxis. Deze regels worden vrijwillig gevolgd door bijna alle grote PS's. Hier is een lijst met enkele regels om de meeste fouten in het Robots.txt-bestand te voorkomen:

  1. Er mag niet meer dan één gespecificeerde richtlijn op één regel staan;
  2. Elke regel begint op een nieuwe regel;
  3. Een spatie aan het begin van een regel is verwijderd;
  4. Opmerkingen zijn toegestaan na het teken #;
  5. Lege robots tellen als volledige indexeringsrechten;
  6. De naam van dit bestand is alleen mogelijk in het geldige formaat “robots”;
  7. De bestandsgrootte mag niet groter zijn dan 32 kb;
  8. Er is slechts één regel toegestaan in de richtlijnen Allow en Disallow. Een lege waarde na Toestaan: of Niet toestaan: is gelijk aan volledige toestemming;
  9. Alle regels moeten in kleine letters worden geschreven;
  10. Het bestand moet altijd beschikbaar zijn;
  11. Een lege regel na de gespecificeerde regels geeft het volledige einde aan van de regels van de User-agent-richtlijn;
  12. Het is wenselijk de regels per PS apart voor te schrijven;
  13. Als de regel een sitemap is, zorg er dan voor dat u een schuine streep (/) voor het begin plaatst;
  14. Er mogen geen aanhalingstekens in een string of in een regel staan;
  15. Het is noodzakelijk om een strikte structuur van regels te overwegen die niet meer bij uw site past;
  16. Robots.txt moet minimalistisch zijn en duidelijk de bedoelde betekenis overbrengen;

Correcte configuratie van het bestand Robots.txt - correcte spelling van commando's

Om een positief resultaat te krijgen bij het gebruik van robots, moet u deze correct configureren. Alle hoofdopdrachten van dit bestand met instructies worden gevolgd door de grootste zoekmachines Google en Yandex. Andere PS's kunnen sommige instructies negeren. Hoe maak je robots.txt responsiever voor de meeste zoekmachines? Hier moet u de basisregels begrijpen voor het werken met dit bestand, die hierboven zijn besproken.
Overweeg de basiscommando's:

  • Gebruikersagent: * — instructies zijn van toepassing op absoluut alle ps-bots. Het is ook mogelijk om bepaalde zoekmachines apart op te geven, bijvoorbeeld: User-Agent: GoogleBot en User-Agent: YandexBot. Zo zijn de regels voor belangrijke PS's correct aangewezen.
  • Niet toestaan: - verbiedt volledig het crawlen en indexeren (van een pagina, directory of bestanden).
  • toestaan: - staat volledig crawlen en indexeren toe (van een pagina, directory of bestanden).
  • Schoon Param: - nodig om sitepagina's met dynamische inhoud uit te sluiten. Dankzij deze regel kunt u dubbele inhoud op de site verwijderen.
  • Crawlvertraging: - de regel specificeert het tijdsinterval voor p-bots om documenten van de site te downloaden. Hiermee kunt u de belasting van de server aanzienlijk verminderen. Bijvoorbeeld: "Crawl-vertraging: 5" zal de n-robot vertellen dat het downloaden van documenten van de site niet vaker dan eens per 5 seconden mogelijk is.
  • Host: your_site.ru - Verantwoordelijk voor de hoofdspiegel van de site. In deze richtlijn moet u de prioriteitsversie van de site specificeren.
  • Sitemap: http://uw_site.ru/sitemap.xml - zoals je zou kunnen raden, vertelt deze richtlijn de p-bot over de beschikbaarheid van Sitemap Online.
  • # - stelt u in staat om opmerkingen achter te laten. U kunt alleen reageren na het hekje. Het kan zowel op een nieuwe regel als in het verlengde van de richtlijn worden geplaatst. Al deze opties worden door bots genegeerd bij het doorgeven van instructies.

Robots.txt controleren met Google of Yandex

Vreemd genoeg zijn alleen Google- of Yandex-webmasterpanelen nodig om dit bestand te controleren. Wat het op zijn beurt veel gemakkelijker maakt om fouten te vinden.

  • Google Webmaster - selecteer "Scannen" in het linkermenu en vervolgens het tabblad "Robots.txt File Check Tool". Voeg vervolgens in de onderste regel van het venster dat verschijnt de naam van het bestand toe. Klik dan op "Controleren" en kijk hoe de Google bot jouw robots ziet.
  • Yandex Webmaster - selecteer in het linkermenu "Tools" en "Analysis of Robots.txt". Klik daarna in het venster dat verschijnt op de knop "Controleren".

Het is vermeldenswaard dat er veel online validators zijn om dit bestand te controleren. Ik had het over de meest betaalbare die altijd bij de hand zijn.

Conclusie

Het is onmogelijk om één perfecte robot voor alle sites te schrijven. De reden hiervoor zijn de sites zelf, waarvan sommige met de hand zijn gemaakt en andere zich op een ander CMS bevinden. Absoluut alle sites hebben een andere directorystructuur en andere dingen.

Daarom is elke webmaster simpelweg verplicht om zijn eigen unieke set regels voor p-bots te maken. Zo'n bestand voldoet aan uw prioriteiten en stelt u niet in staat om op zoek te gaan naar vertrouwelijke informatie. Hierdoor bevat de index inhoud van hoge kwaliteit zonder onnodige rommel. Ik raad u aan om ook de nodige omleidingen op uw site in te stellen. Dit voorkomt duplicaten, brengt gewicht over naar de benodigde pagina's.

Bedankt voor het lezen Nicola Top

Hoe nuttig is de post?

Klik op de smiley om te beoordelen!

gemiddelde score 5 / 5. Aantal beoordelingen: 81

Er zijn nog geen beoordelingen. Beoordeel eerst.

Читайте также:

1 reactie

  1. Alycia schreef:

    Ik geniet ervan, want ik heb precies gevonden waar ik vroeger naar zocht.
    Je hebt een einde gemaakt aan mijn vierdaagse jacht! God zegene je man. Een fijne dag verder.
    Doei

Добавить комментарий

Het e-mailadres wordt niet gepubliceerd. Обязательные поля помечены *

2 × 3 =