Kuidas luua veebilehe jaoks faili robots.txt – õiged robotid

printida · Время на чтение: 11мин · kõrval · Avaldatud · Uuendatud

paljunedaKuula artiklit

Kuidas luua faili robots.txt.

Üksikasjalikud juhised kuidas luua faili robots.txt saidi jaoks. Robots.txt on saidi täieliku otsingumootori optimeerimise üks vajalikumaid aspekte teie veebisaidi turvalisus. Järgides selle faili õige kasutamise tingimusi, saate saidil saavutada teatud positiivse mõju.

Enamiku PS-ide jaoks on võimalik määrata mitmesuguseid juhiseid. Mis näitavad otsingubotile vajalikke piiranguid või õigusi lehtede, kataloogide või saidi osade skannimine.

Fail Robots.txt – põhimääratlus

Robots.txt - sellel on teatud erandistandardid otsinguagentide (bottide) jaoks, mis võeti vastu 1944. aasta jaanuaris. Fail on midagi faililaadset .htaccess (see näeb ka reeglid ette). Selle faili reegleid järgib vabatahtlikult kõige levinum PS. Fail võib koosneda ühest või mitmest reeglist, millest igaüks blokeerib või võimaldab roomajal juurdepääsu saidi teatud teedele.

Vaikimisi seda faili saidil ei ole – see annab kõigile PS-dele täieliku loa kogu saidi sisu indekseerida. Selline luba võib kaasa tuua saidi oluliste tehniliste lehtede lisamise otsingumootori registrisse, mis ei tohiks seal olla.

Miks me vajame saidil faili Robots.txt – selle mõju reklaamidele otsingumootorites

Robots.txt on saidi otsingumootoritele optimeerimisel kõige olulisem tegur. Tänu korralikult kirjutatud reeglistikule otsingurobotite jaoks saate saavutada teatud tõusu saidi asetuses otsingus. Mida need juhised annavad:

  1. Lukustatud saidi teatud lehtede, jaotiste, kataloogide indekseerimiseks;
  2. Kasulikku sisu mittesisaldavate lehtede välistamine;
  3. Dubleerivate lehtede kõrvaldamine ja palju muud.

Enamiku saitide jaoks on sellised indekseerimispiirangud lihtsalt vajalikud; väikesed täisleheküljelised saidid on valikulised. Igale saidile tuleb aga lisada teatud direktiivid. Näiteks indekseerimise keelud:

  1. Registreerimislehed, administraatori sisselogimine, parooli taastamine;
  2. Tehnilised kataloogid;
  3. Rss - saidi kanalid;
  4. Replytocom ja palju muud.

Kuidas ise faili Robors.txt luua pluss näited

Faili Robots.txt loomisel ei teki raskusi isegi algajatel. Piisab teatud toimingute jada järgimisest:

  1. Robots.txt on tekstidokument ja selle loovad kõik saadaolevad tekstiredaktorid;
  2. Faililaiend peab olema .txt;
  3. Nimi on kohustuslikud robotid;
  4. Ühe saidi kohta on lubatud ainult üks selline fail;
  5. Paigutatud ainult saidi juurkataloogi;

Peate kasutama tavalist tekstiredaktorit (alternatiivina märkmikku). Loome .txt dokumendi nimega robotid. Seejärel salvestame ja edastame selle dokumendi FTP-kliendi abil saidi juurkataloogi. Need on peamised sammud, mida järgida.

Populaarse CMS-i standardse Robots.txt näited

Robots.txt näide amiro.cms jaoks:

robots.txt amiro.cms jaoks.

Fati robots.txt näide bitrixi jaoks:

robots.txt bitrixi jaoks.

robots.txt bitrix1 jaoks.

Faili Robots.txt näide dle jaoks:

robots.txt dle jaoks.

Drupali robots.txt näide:

robots.txt drupalile.

robots.txt drupal1 jaoks.

Robots.txt näide hostcms-i jaoks:

robots.txt hostcms-i jaoks.

Robots.txt näide joomla3 jaoks:

robots.txt joomla3 jaoks.

Joomla faili robots.txt näide:

robots.txt Joomla jaoks.

Faili Robots.txt näide modx evo jaoks:

robots.txt modx evo jaoks.

Robots.txt näide modx jaoks:

robots.txt modx jaoks.

Robots.txt näide netcati jaoks:

robots.txt netcati jaoks.

Robots.txt näide opencat jaoks:

robots.txt opencati jaoks.

Robots.txt näide 3. trükiviga jaoks:

robots.txt kirjaviga 3 jaoks.

Robots.txt näide umi jaoks:

robots.txt umi jaoks.

WordPressi faili robots.txt näide:

robots.txt WordPressi jaoks.

Siin on näide minu WordPressi CMS-i saidifailist:

# robots.txt
User-Agent: *
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */amp
Disallow: */amp?
Disallow: */amp/
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Mail.Ru
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: ia_archiver
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: SputnikBot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Bingbot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: */*/?amp
Allow: */tag/?amp
Allow: */page/?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: Yandex-Images
Allow: /wp-content/uploads/

User-agent: Mail.Ru-Images
Allow: /wp-content/uploads/

User-agent: ia_archiver-Images
Allow: /wp-content/uploads/

User-agent: Bingbot-Images
Allow: /wp-content/uploads/


Host: https://nicola.top
Sitemap: https://nicola.top/sitemap_index.xml
Sitemap: https://nicola.top/?feed=googleimagesitemap

Loodan, et see on teile kasulik. Rakendage reegleid vastavalt oma saidi kaalutlustele. Igal ressursil peaks olema oma lähenemisviis.

Hetkel on minu fail lühendatud üldiseks. Sellega saate tutvuda minnes aadressile nicola.top/robots.txt

Kuidas luua veebiteenuste abil faili Robots.txt

See meetod on kõige lihtsam ja kiirem, sobib neile, kes kardavad faili Robots.txt ise luua või on lihtsalt laisad. Selle faili loomist pakuvad palju teenuseid. Kuid selle meetodi puhul tasub kaaluda mõningaid nüansse. Näiteks:

  • Eelnevalt tuleb arvestada, mida täpselt soovitakse agendile keelata või lubada.
  • Valmis faili kohustuslik kontrollimine on vajalik enne selle saidile üleslaadimist.
  • Olge ettevaatlik, sest valesti loodud veebifail Robots.txt põhjustab kahetsusväärse olukorra. Seega võivad otsingusse sattuda saidi tehnilised ja muud lehed, mida a priori seal olla ei tohiks.
  • Siiski on parem kulutada aega ja vaeva õige kohandatud roboti loomiseks. Nii saate uuesti luua oma saidile sobiva keeldude ja lubade põhjendatud struktuuri.

Faili Robots.txt redigeerimine ja süntaksi parandamine

Pärast faili Robots.txt edukat loomist saate seda hõlpsalt oma soovi järgi redigeerida ja muuta. Sel juhul tuleks arvesse võtta mõningaid reegleid ja pädevat süntaksit. Aja jooksul muudate seda faili korduvalt. Kuid ärge unustage, et pärast redigeerimist peate selle faili saidile üles laadima. Seega värskendades selle sisu otsingurobotite jaoks.

Robots.txt kirjutamine on väga lihtne, selle põhjuseks on selle faili kujunduse üsna lihtne struktuur. Reeglite kirjutamisel on peamine kasutada rangelt määratletud süntaksit. Neid reegleid järgivad vabatahtlikult peaaegu kõik suuremad PS-id. Siin on loetelu reeglitest, et vältida enamikku faili Robots.txt vigu.

  1. Ühel real ei tohi olla rohkem kui üks määratud käsk;
  2. Iga reegel algab uuelt realt;
  3. Rea algusest on tühik eemaldatud;
  4. Kommentaarid on lubatud pärast märki #;
  5. Tühjad robotid loetakse täielikuks indekseerimisloaks;
  6. Selle faili nimi on võimalik ainult kehtivas vormingus "robots";
  7. Faili suurus ei tohi ületada 32 kb;
  8. Lubamise ja keelamise direktiivides on lubatud ainult üks reegel. Tühi väärtus pärast Allow: või Disallow: võrdub täieliku loaga;
  9. Kõik reeglid tuleb kirjutada väiketähtedega;
  10. Fail peab olema alati kättesaadav;
  11. Tühi rida määratud reeglite järel näitab User-agent direktiivi reeglite täielikku lõppu;
  12. Reeglid on soovitav ette näha igale PS-le eraldi;
  13. Kui reegel on saidikataloog, siis pange selle alguse ette kindlasti kaldkriips (/);
  14. Stringis ega reeglis ei tohiks olla jutumärke;
  15. On vaja kaaluda ranget reeglite struktuuri, mis teie saidile enam ei sobi;
  16. Robots.txt peaks olema minimalistlik ja selgelt edasi andma kavandatud tähendust;

Faili Robots.txt õige konfiguratsioon – käskude õigekiri

Robotite kasutamisel positiivse tulemuse saamiseks peate selle õigesti konfigureerima. Kõiki selle faili peamisi käske koos juhistega järgivad suurimad otsingumootorid Google ja Yandex. Teised PS-id võivad mõningaid juhiseid ignoreerida. Kuidas muuta faili robots.txt enamiku otsingumootorite jaoks paremini tundlikuks? Siin peate mõistma selle failiga töötamise põhireegleid, mida arutati eespool.
Mõelge põhilistele käskudele:

  • Kasutaja agent: * — juhised kehtivad absoluutselt kõikidele ps-robotidele. Samuti on võimalik teatud otsingumootorid eraldi määrata, näiteks: User-Agent: GoogleBot ja User-Agent: YandexBot. Seega on oluliste PS-de reeglid õigesti määratud.
  • Keela: - keelab täielikult (lehe, kataloogi või failide) roomamise ja indekseerimise.
  • lubama: - võimaldab täielikult (lehe, kataloogi või failide) roomamist ja indekseerimist.
  • Puhas parameeter: – vajalik dünaamilise sisuga saidilehtede välistamiseks. Tänu sellele reeglile saate saidil dubleerivast sisust lahti saada.
  • Roomamise viivitus: - reegel määrab ajaintervalli, mille jooksul p-botid saidilt dokumente alla laadivad. Võimaldab oluliselt vähendada serveri koormust. Näiteks: "Indekseerimise viivitus: 5" ütleb n-robotile, et saidilt saab dokumente alla laadida mitte rohkem kui üks kord iga 5 sekundi järel.
  • Host: your_site.ru - vastutab saidi peamise peegli eest. Selles direktiivis peate määrama saidi prioriteetse versiooni.
  • Saidiplaan: http://your_site.ru/sitemap.xml - nagu võite arvata, ütleb see direktiiv p-botile saidiplaani saadavuse kohta Internetis.
  • # - võimaldab teil kommentaare jätta. Kommenteerida saab ainult pärast naelamärki. Seda saab paigutada nii uuele liinile kui ka direktiivi jätkuna. Kõiki neid valikuid eiravad robotid juhiste edastamisel.

Kuidas kontrollida faili Robots.txt Google'i või Yandexi abil

Kummalisel kombel on selle faili kontrollimiseks vaja ainult Google'i või Yandexi veebihalduri paneele. Mis omakorda teeb vigade leidmise palju lihtsamaks.

  • Google Webmaster – valige vasakpoolsest menüüst "Skannimine" ja seejärel vahekaart "Robots.txt failikontrolli tööriist". Seejärel lisage ilmuva akna alumisele reale faili nimi. Seejärel klõpsake nuppu "Kontrolli" ja vaadake, kuidas Google'i robot teie roboteid näeb.
  • Yandex Webmaster - vasakpoolses menüüs valige "Tööriistad" ja "Robots.txt analüüs". Pärast seda klõpsake ilmuvas aknas lihtsalt nuppu "Kontrolli".

Väärib märkimist, et selle faili kontrollimiseks on palju veebipõhiseid validaatoreid. Rääkisin kõige soodsamatest, mis on alati käepärast.

Järeldus

Kõigi saitide jaoks on võimatu kirjutada ühte täiuslikku robotit. Selle põhjuseks on saidid ise, millest osa on käsitsi valmistatud ja teised asuvad erinevatel CMS-idel. Absoluutselt kõigil saitidel on erinev kataloogistruktuur ja muud asjad.

Seetõttu on iga veebihaldur lihtsalt kohustatud looma p-robotite jaoks oma ainulaadsed reeglid. Selline fail vastab teie prioriteetidele ega võimalda teil konfidentsiaalset teavet otsida. Tänu sellele sisaldab register kvaliteetset sisu ilma tarbetu prügita. Soovitan oma saidil seadistada ka vajalikud ümbersuunamised. See väldib duplikaate ja kannab kaalu vajalikele lehtedele.

Täname, et lugesite Nicola Topi

Kui kasulik postitus on?

Hindamiseks klõpsake emotikonil!

keskmine hinne 5 / 5. Hinnangute arv: 81

Hinnanguid veel pole. Hinda kõigepealt.

Sulle võib meeldida ka...

1 vastus

  1. Alycia ütleb:

    Naudin, sest leidsin täpselt selle, mida varem otsisin.
    Sa lõpetasid mu neli päeva kestnud jahi! Jumal õnnistagu sind mees. Head päeva.
    Hüvasti

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga

6 + neli =