Kaip sukurti robots.txt failą svetainei – teisingi robotai

spausdinti · Время на чтение: 11vyras · pateikė · Paskelbta · Atnaujinta

daugintisKlausyti straipsnio

Kaip sukurti failą robots.txt.

Išsamios instrukcijos apie kaip sukurti robots.txt failą svetainei. Robots.txt yra vienas iš būtiniausių visaverčio svetainės optimizavimo paieškos sistemoms aspektų. jūsų svetainės saugumas. Laikydamiesi tinkamo šio failo naudojimo sąlygų, galite pasiekti tam tikrą teigiamą poveikį svetainei.

Daugeliui PS galima nurodyti įvairias instrukcijas. Kurie paieškos robotui nurodo būtinus apribojimus ar leidimus nuskaityti puslapius, katalogus ar svetainės dalis.

Failas Robots.txt – pagrindinė apibrėžtis

Robotai.txt - turi tam tikrus išimčių standartus paieškos agentams (botams), kurie buvo priimti 1944 m. sausio mėn. Failas yra kažkas panašaus į failą .htaccess (taip pat nustatomos taisyklės). Šio failo taisyklių savanoriškai laikosi labiausiai paplitęs PS. Failą gali sudaryti viena ar daugiau taisyklių, kurių kiekviena blokuoja arba leidžia tikrintuvui pasiekti tam tikrus svetainės kelius.

Pagal numatytuosius nustatymus šio failo nėra svetainėje – tai suteikia visiems PS visišką leidimą indeksuoti visą svetainės turinį. Dėl tokio leidimo į paieškos sistemos indeksą gali būti įtraukti svarbūs svetainės techniniai puslapiai, kurių ten neturėtų būti.

Kodėl svetainėje reikalingas Robots.txt – jo poveikis reklamai paieškos sistemose

Robots.txt yra svarbiausias veiksnys optimizuojant svetainę paieškos sistemoms. Dėl tinkamai surašytų paieškos robotų taisyklių rinkinio galite pasiekti tam tikrą svetainės reitingo paieškoje padidėjimą. Ką duoda šios instrukcijos:

  1. Užrakinta indeksuoti tam tikrus svetainės puslapius, skyrius, katalogus;
  2. Puslapių, kuriuose nėra naudingo turinio, pašalinimas;
  3. Pasikartojančių puslapių pašalinimas ir kt.

Daugeliui svetainių tokie indeksavimo apribojimai yra tiesiog būtini; mažos viso puslapio svetainės yra neprivalomos. Tačiau prie kiekvienos svetainės turi būti pridėtos tam tikros direktyvos. Pavyzdžiui, draudimai indeksuoti:

  1. Registracijos puslapiai, administratoriaus prisijungimas, slaptažodžio atkūrimas;
  2. Techniniai katalogai;
  3. Rss – svetainės informacijos santraukos;
  4. Replytocom ir daugiau.

Kaip patiems sukurti Robors.txt failą ir pavyzdžius

Sunkumai kuriant Robots.txt failą negali kilti net pradedantiesiems. Pakanka laikytis tam tikros veiksmų sekos:

  1. Robots.txt yra tekstinis dokumentas ir yra sukurtas bet kuria turima teksto redaktoriumi;
  2. Failo plėtinys turi būti .txt;
  3. Pavadinimas privalomas robotai;
  4. Vienoje svetainėje leidžiamas tik vienas toks failas;
  5. Įdėtas tik į pagrindinį svetainės katalogą;

Turite naudoti įprastą teksto rengyklę (kaip alternatyvą užrašų knygelę). Sukuriame .txt dokumentą pavadinimu robotai. Tada išsaugome ir perkeliame šį dokumentą naudodami FTP klientą į pagrindinį svetainės katalogą. Tai yra pagrindiniai žingsniai, kurių reikia laikytis.

Standartinio Robots.txt, skirto populiarioms TVS, pavyzdžiai

Robots.txt pavyzdys, skirtas amiro.cms:

robots.txt, skirtas amiro.cms.

Bitrix failo robots.txt pavyzdys:

robots.txt, skirtas bitrix.

robots.txt, skirtas bitrix1.

Robots.txt pavyzdys, skirtas dle:

robots.txt, skirtas dle.

Drupal robots.txt pavyzdys:

robots.txt, skirtas drupal.

robots.txt, skirtas drupal1.

Robots.txt pavyzdys, skirtas hostcms:

robots.txt, skirtas hostcms.

Joomla3 robots.txt pavyzdys:

robots.txt, skirtas joomla3.

Joomla robots.txt pavyzdys:

robots.txt, skirtas joomla.

Robots.txt pavyzdys, skirtas modx evo:

robots.txt, skirtas modx evo.

Robots.txt pavyzdys, skirtas modx:

robots.txt, skirtas modx.

Netcat robots.txt pavyzdys:

robots.txt, skirtas netcat.

Robots.txt pavyzdys, skirtas opencat:

robots.txt, skirtas opencat.

Robots.txt 3 tipo klaidos pavyzdys:

robots.txt, skirtas 3 tipo klaidai.

Robots.txt pavyzdys, skirtas umi:

robots.txt, skirtas umi.

WordPress robots.txt pavyzdys:

robots.txt, skirtas WordPress.

Štai mano WordPress TVS svetainės failo pavyzdys:

# robots.txt
User-Agent: *
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */amp
Disallow: */amp?
Disallow: */amp/
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Mail.Ru
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: ia_archiver
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: SputnikBot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Bingbot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: */*/?amp
Allow: */tag/?amp
Allow: */page/?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: Yandex-Images
Allow: /wp-content/uploads/

User-agent: Mail.Ru-Images
Allow: /wp-content/uploads/

User-agent: ia_archiver-Images
Allow: /wp-content/uploads/

User-agent: Bingbot-Images
Allow: /wp-content/uploads/


Host: https://nicola.top
Sitemap: https://nicola.top/sitemap_index.xml
Sitemap: https://nicola.top/?feed=googleimagesitemap

Tikiuosi, kad tai bus jums naudinga. Taikykite taisykles atsižvelgdami į savo svetainės nuostatas. Kiekvienas išteklius turi turėti savo požiūrį.

Šiuo metu mano failas yra sutrumpintas į bendrąjį. Su juo galite susipažinti apsilankę nicola.top/robots.txt

Kaip sukurti Robots.txt failą naudojant internetines paslaugas

Šis būdas yra lengviausias ir greičiausias, tinka tiems, kurie bijo patys kurti Robots.txt arba tiesiog tingi. Yra daug paslaugų, siūlančių sukurti šį failą. Tačiau verta apsvarstyti kai kuriuos šio metodo niuansus. Pavyzdžiui:

  • Būtina iš anksto atsižvelgti į tai, ką tiksliai norite uždrausti ar leisti agentui.
  • Prieš įkeliant gatavą failą į svetainę, būtina jį patikrinti.
  • Būkite atsargūs, nes neteisingai sukurtas Robots.txt internetinis failas sukels apgailėtiną situaciją. Taigi į paiešką gali patekti techniniai ir kiti svetainės puslapiai, kurių a priori ten neturėtų būti.
  • Vis dėlto geriau praleisti laiką ir pastangas, kad būtų sukurtas tinkamas pritaikytas robotas. Tokiu būdu galite atkurti gerai pagrįstą jūsų svetainei tinkamą draudimų ir leidimų struktūrą.

Redaguoti ir taisyti failo Robots.txt sintaksę

Sėkmingai sukūrę Robots.txt galite lengvai jį redaguoti ir keisti kaip norite. Šiuo atveju reikėtų atsižvelgti į kai kurias taisykles ir kompetentingą sintaksę. Laikui bėgant šį failą keisite pakartotinai. Tačiau nepamirškite, kad po redagavimo turėsite įkelti šį failą į svetainę. Taigi, atnaujinamas jo turinys paieškos robotams.

Rašyti Robots.txt yra labai paprasta, to priežastis yra gana paprasta šio failo dizaino struktūra. Pagrindinis dalykas rašant taisykles yra naudoti griežtai apibrėžtą sintaksę. Šių taisyklių savanoriškai laikosi beveik visi pagrindiniai PS. Štai keletas taisyklių, kurios padės išvengti daugumos klaidų Robots.txt faile, sąrašas:

  1. Vienoje eilutėje negali būti daugiau nei viena nurodyta direktyva;
  2. Kiekviena taisyklė prasideda nauja eilute;
  3. Tarpas eilutės pradžioje buvo pašalintas;
  4. Komentarai leidžiami po simbolio #;
  5. Tušti robotai bus laikomi visišku indeksavimo leidimu;
  6. Šio failo pavadinimas galimas tik galiojančiu formatu „robotai“;
  7. Failo dydis neturi viršyti 32kb;
  8. Leidžiama ir neleidžiama direktyvose leidžiama tik viena taisyklė. Tuščia reikšmė po Allow: arba Disallow: atitinka visišką leidimą;
  9. Visos taisyklės turi būti parašytos mažosiomis raidėmis;
  10. Failas visada turi būti pasiekiamas;
  11. Tuščia eilutė po nurodytų taisyklių rodo visišką User-agent direktyvos taisyklių pabaigą;
  12. Pageidautina taisykles nustatyti kiekvienam PS atskirai;
  13. Jei taisyklė yra svetainės katalogas, prieš jos pradžią būtinai įdėkite pasvirąjį brūkšnį (/);
  14. Eilutėje ar taisyklėje neturėtų būti kabučių;
  15. Būtina atsižvelgti į griežtą taisyklių struktūrą, kuri nebeatitinka jūsų svetainės;
  16. Robots.txt turi būti minimalistinis ir aiškiai perteikti numatytą prasmę;

Tinkama Robots.txt failo konfigūracija – teisinga komandų rašyba

Norėdami gauti teigiamą rezultatą naudodami robotus, turite jį tinkamai sukonfigūruoti. Visas pagrindines šio failo komandas su instrukcijomis vykdo didžiausios paieškos sistemos Google ir Yandex. Kiti PS gali nepaisyti kai kurių nurodymų. Kaip padaryti, kad failas robots.txt labiau reaguotų į daugumą paieškos sistemų? Čia turite suprasti pagrindines darbo su šiuo failu taisykles, kurios buvo aptartos aukščiau.
Apsvarstykite pagrindines komandas:

  • Vartotojo atstovas: * - instrukcijos bus taikomos absoliučiai visiems ps robotams. Taip pat galima atskirai nurodyti tam tikras paieškos sistemas, pvz.: User-Agent: GoogleBot ir User-Agent: YandexBot. Taigi svarbių PS taisyklės yra teisingai nustatytos.
  • Neleisti: - visiškai draudžia tikrinti ir indeksuoti (puslapį, katalogą ar failus).
  • leisti: - visiškai leidžia tikrinti ir indeksuoti (puslapį, katalogą ar failus).
  • Švarus parametras: – reikalingas norint išskirti svetainės puslapius su dinaminiu turiniu. Šios taisyklės dėka galite atsikratyti pasikartojančio turinio svetainėje.
  • Tikrinimo delsa: - taisyklė nurodo laiko intervalą, per kurį p-botai atsisiunčia dokumentus iš svetainės. Leidžia žymiai sumažinti serverio apkrovą. Pavyzdžiui: „Crawl-delay: 5“ praneš n-robotui, kad atsisiųsti dokumentus iš svetainės galima ne dažniau kaip kartą per 5 sekundes.
  • Priegloba: your_site.ru - Atsakingas už pagrindinį svetainės veidrodį. Šioje direktyvoje turite nurodyti prioritetinę svetainės versiją.
  • Svetainės schema: http://your_site.ru/sitemap.xml - kaip galite atspėti, ši direktyva nurodo p-bot apie svetainės schemos prieinamumą Prisijungęs.
  • # - leidžia palikti komentarus. Komentuoti galite tik po svaro ženklu. Jis gali būti įtrauktas ir į naują eilutę, ir kaip direktyvos tęsinys. Perduodami instrukcijas robotai nepaisys visų šių parinkčių.

Kaip patikrinti Robots.txt naudojant Google arba Yandex

Kaip bebūtų keista, norint patikrinti šį failą reikia tik „Google“ arba „Yandex“ žiniatinklio valdytojo skydelių. O tai savo ruožtu leidžia daug lengviau rasti klaidas.

  • „Google Webmaster“ – kairiajame meniu pasirinkite „Nuskaitymas“, tada – skirtuką „Robots.txt failo tikrinimo įrankis“. Tada apatinėje pasirodžiusio lango eilutėje pridėkite failo pavadinimą. Tada spustelėkite „Patikrinti“ ir pažiūrėkite, kaip „Google“ robotas mato jūsų robotus.
  • „Yandex Webmaster“ – kairiajame meniu pasirinkite „Įrankiai“ ir „Robots.txt analizė“. Po to pasirodžiusiame lange tiesiog spustelėkite mygtuką „Tikrinti“.

Verta paminėti, kad yra daug internetinių tikrintuvų, skirtų šiam failui patikrinti. Aš kalbėjau apie pačius prieinamiausius, kurie visada yra po ranka.

Išvada

Neįmanoma parašyti vieno tobulo roboto visoms svetainėms. To priežastis yra pačios svetainės, kai kurios iš jų yra sukurtos rankomis, o kitos yra skirtingose TVS. Absoliučiai visos svetainės turi skirtingą katalogų struktūrą ir kitus dalykus.

Todėl kiekvienas žiniatinklio valdytojas tiesiog privalo sukurti savo unikalų p-botų taisyklių rinkinį. Toks failas atitiks jūsų prioritetus ir neleis jums įsitraukti į konfidencialios informacijos paiešką. Dėl šios priežasties indekse bus aukštos kokybės turinys be nereikalingų šiukšlių. Taip pat rekomenduoju svetainėje nustatyti reikiamus peradresavimus. Taip išvengsite dublikatų, perkelsite svorį į reikiamus puslapius.

Dėkojame, kad skaitėte Nicola Top

Kuo įrašas naudingas?

Spustelėkite šypsenėlę, kad įvertintumėte!

Vidutinis reitingas 5 / 5. Įvertinimų skaičius: 81

Įvertinimų dar nėra. Pirmiausia įvertinkite.

Tau taip pat gali patikti...

1 atsakymas

  1. Alycia parašė:

    Man patinka, nes radau būtent tai, ko ieškojau.
    Jūs baigėte mano keturias dienas trukusią medžioklę! Telaimina tave Dievas žmogau. Geros dienos.
    Ate

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *

5 × penkios =