Веб-сайт үшін robots.txt файлын қалай жасауға болады - дұрыс роботтар

басып шығару · Время на чтение: 11мин · бойынша · Жарияланды · Жаңартылған

көбейтуМақаланы тыңдаңыз

robots.txt файлын қалай жасауға болады.

Егжей-тегжейлі нұсқаулар robots.txt файлын қалай жасауға болады сайт үшін. Robots.txt - бұл сайтты толыққанды іздеу жүйесін оңтайландырудың ең қажетті аспектілерінің бірі және веб-сайтыңыздың қауіпсіздігі. Осы файлды дұрыс пайдалану шарттарын сақтай отырып, сіз сайтта белгілі бір оң әсерге қол жеткізе аласыз.

Көптеген PS үшін әртүрлі нұсқауларды көрсетуге болады. Бұл іздеу ботына қажетті шектеулерді немесе рұқсаттарды көрсетеді беттерді, каталогтарды немесе сайт бөлімдерін сканерлеу.

Robots.txt файлы - негізгі анықтамасы

Robots.txt - 1944 жылдың қаңтарында қабылданған іздеу агенттері (боттар) үшін белгілі бір ерекшелік стандарттары бар. Файл файл сияқты нәрсе .htaccess (ол ережелерді де белгілейді). Бұл файлдың ережелері ерікті түрде ең көп таралған PS арқылы орындалады. Файл бір немесе бірнеше ережелерден тұруы мүмкін, олардың әрқайсысы тексеріп шығушыға сайттағы белгілі бір жолдарға кіруге мүмкіндік береді.

Әдепкі бойынша, бұл файл сайтта жоқ - бұл барлық PS-ке сайттың барлық мазмұнын индекстеуге толық рұқсат береді. Мұндай рұқсат сайттың маңызды техникалық беттерін іздеу жүйесінің индексіне қосуға әкелуі мүмкін, ол жерде болмауы керек.

Сайтта Robots.txt не үшін қажет - оның іздеу жүйелерінде жылжытуға әсері

Robots.txt - сайтты іздеу жүйесін оңтайландырудың ең маңызды факторы. Іздеу боттарына арналған дұрыс жазылған ережелер жиынтығының арқасында сіз іздеуде сайт рейтингінің белгілі бір өсуіне қол жеткізе аласыз. Бұл нұсқаулар не береді:

  1. Сайттың белгілі бір беттерін, бөлімдерін, каталогтарын индекстеу үшін құлыпталған;
  2. Пайдалы мазмұны жоқ беттерді алып тастау;
  3. Қайталанатын беттерді жою және т.б.

Көптеген сайттар үшін мұндай индекстеу шектеулері қажет; шағын толық бетті сайттар міндетті емес. Дегенмен, әрбір сайтқа белгілі директивалар қосылуы керек. Мысалы, индекстеуге тыйым салу:

  1. Тіркеу беттері, әкімші логин, құпия сөзді қалпына келтіру;
  2. Техникалық каталогтар;
  3. Rss - сайт арналары;
  4. Replytocom және т.б.

Robors.txt файлын өзіңіз қалай жасауға болады және мысалдар

Robots.txt файлын жасаудағы қиындықтар тіпті жаңадан бастаушылар үшін де туындауы мүмкін емес. Белгілі бір әрекеттер тізбегін орындау жеткілікті:

  1. Robots.txt мәтіндік құжат болып табылады және кез келген қолжетімді мәтіндік редактор арқылы жасалады;
  2. Файл кеңейтімі .txt болуы керек;
  3. Атауы міндетті роботтар;
  4. Әр сайтқа тек бір файлға рұқсат етіледі;
  5. Сайттың түбірлік каталогында ғана орналастырылған;

Сізге кәдімгі мәтіндік редакторды (балама ретінде блокнот) пайдалану қажет. Біз роботтар атымен .txt құжатын жасаймыз. Содан кейін біз бұл құжатты FTP клиентінің көмегімен сайттың түбірлік каталогына сақтаймыз және тасымалдаймыз. Бұл орындалатын негізгі қадамдар.

Танымал CMS үшін стандартты Robots.txt мысалдары

amero.cms үшін Robots.txt мысалы:

amero.cms үшін robots.txt.

Bitrix үшін robots.txt мысалы:

bitrix үшін robots.txt.

bitrix1 үшін robots.txt.

dle үшін Robots.txt мысалы:

dle үшін robots.txt.

Drupal robots.txt мысалы:

drupal үшін robots.txt.

drupal1 үшін robots.txt.

Hostcms үшін Robots.txt мысалы:

hostcms үшін robots.txt.

Joomla3 үшін Robots.txt мысалы:

joomla3 үшін robots.txt.

joomla үшін robots.txt мысалы:

joomla үшін robots.txt.

Modx evo үшін Robots.txt мысалы:

modx evo үшін robots.txt.

Modx үшін Robots.txt мысалы:

modx үшін robots.txt.

Netcat үшін Robots.txt мысалы:

netcat үшін robots.txt.

Opencat үшін Robots.txt мысалы:

opencat үшін robots.txt.

typo3 үшін Robots.txt мысалы:

3 типі үшін robots.txt.

Umi үшін Robots.txt мысалы:

umi үшін robots.txt.

Wordpress үшін robots.txt мысалы:

Wordpress үшін robots.txt.

Міне менің WordPress CMS сайт файлымның мысалы:

# robots.txt
User-Agent: *
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */amp
Disallow: */amp?
Disallow: */amp/
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Mail.Ru
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: ia_archiver
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: SputnikBot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Bingbot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: */*/?amp
Allow: */tag/?amp
Allow: */page/?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: Yandex-Images
Allow: /wp-content/uploads/

User-agent: Mail.Ru-Images
Allow: /wp-content/uploads/

User-agent: ia_archiver-Images
Allow: /wp-content/uploads/

User-agent: Bingbot-Images
Allow: /wp-content/uploads/


Host: https://nicola.top
Sitemap: https://nicola.top/sitemap_index.xml
Sitemap: https://nicola.top/?feed=googleimagesitemap

Сізге пайдалы болады деп үміттенемін. Ережелерді өз сайтыңызға сәйкес қолданыңыз. Әрбір ресурстың өзіндік тәсілі болуы керек.

Қазіргі уақытта менің файлым жалпыға қысқартылған. Онымен nicola.top/robots.txt сайтына өту арқылы танысуға болады

Онлайн қызметтерді пайдаланып Robots.txt файлын қалай жасауға болады

Бұл әдіс ең оңай және жылдам, Robots.txt файлын өз бетімен жасаудан қорқатындар немесе жай жалқаулар үшін қолайлы. Бұл файлды жасауды ұсынатын көптеген қызметтер бар. Бірақ бұл әдіске қатысты кейбір нюанстарды қарастырған жөн. Мысалыға:

  • Агентке нақты не тыйым салғыңыз келетінін немесе рұқсат еткіңіз келетінін алдын ала ескеру қажет.
  • Дайын файлды сайтқа жүктеп салмас бұрын міндетті түрде тексеру қажет.
  • Сақ болыңыз, себебі қате жасалған Robots.txt онлайн файлы қайғылы жағдайға әкеледі. Осылайша, априори болмауы керек сайттың техникалық және басқа беттері іздеуге кіре алады.
  • Дегенмен, дұрыс таңдамалы роботты жасау үшін уақыт пен күш жұмсаған дұрыс. Осылайша сіз өзіңіздің сайтыңызға сәйкес келетін тыйымдар мен рұқсаттардың негізделген құрылымын қайта жасай аласыз.

Robots.txt файлының синтаксисін өңдеу және түзету

Robots.txt сәтті жасалғаннан кейін оны қалағаныңызша оңай өңдеуге және өзгертуге болады. Бұл жағдайда кейбір ережелер мен құзыретті синтаксисті ескеру қажет. Уақыт өте келе бұл файлды қайта-қайта өзгертесіз. Бірақ ұмытпаңыз, өңдегеннен кейін бұл файлды сайтқа жүктеп салу керек болады. Осылайша, іздеу роботтары үшін оның мазмұнын жаңарту.

Robots.txt файлын жазу өте қарапайым, оның себебі - бұл файл дизайнының қарапайым құрылымы. Ережелерді жазу кезінде ең бастысы - қатаң анықталған синтаксисті пайдалану. Бұл ережелерді барлық дерлік негізгі PS өз еркімен орындайды. Мұнда Robots.txt файлындағы қателердің көпшілігін болдырмау үшін кейбір ережелер тізімі берілген:

  1. Бір жолда бір көрсетілген директивадан артық болмауы керек;
  2. Әрбір ереже жаңа жолдан басталады;
  3. Жолдың басындағы бос орын жойылды;
  4. # таңбасынан кейін түсініктемелерге рұқсат етіледі;
  5. Бос роботтар толық индекстеу рұқсаты ретінде есептеледі;
  6. Бұл файлдың атауы «роботтар» жарамды пішімінде ғана мүмкін болады;
  7. Файл өлшемі 32 кб аспауы керек;
  8. Рұқсат ету және тыйым салу директивасында бір ғана ережеге рұқсат етілген. Allow: немесе Disallow: кейін бос мән толық рұқсатқа тең;
  9. Барлық ережелер кіші әріппен жазылуы керек;
  10. Файл әрқашан қолжетімді болуы керек;
  11. Көрсетілген ережелерден кейінгі бос жол Пайдаланушы-агент директивасы ережелерінің толық аяқталуын көрсетеді;
  12. Әрбір PS үшін ережелерді бөлек белгілеген жөн;
  13. Ереже сайт каталогы болса, оның басынан бұрын қиғаш сызық (/) қоюды ұмытпаңыз;
  14. Жолда немесе ережеде тырнақшалар болмауы керек;
  15. Сіздің сайтыңызға сәйкес келетін ережелердің қатаң құрылымын қарастыру қажет;
  16. Robots.txt мәтіні минималистік болуы және көздеген мағынаны анық жеткізуі керек;

Robots.txt файлының дұрыс конфигурациясы - пәрмендердің дұрыс жазылуы

Роботтарды пайдалану кезінде оң нәтиже алу үшін оны дұрыс конфигурациялау қажет. Нұсқаулары бар осы файлдың барлық негізгі пәрмендері Google және Yandex ірі іздеу жүйелері арқылы орындалады. Басқа PS кейбір нұсқауларды елемеуі мүмкін. Robots.txt файлын көптеген іздеу жүйелеріне қалай жауап беруге болады? Мұнда сіз жоғарыда талқыланған осы файлмен жұмыс істеудің негізгі ережелерін түсінуіңіз керек.
Негізгі командаларды қарастырыңыз:

  • Пайдаланушы агенті: * — нұсқаулар мүлдем барлық ps боттарына қолданылады. Сондай-ақ белгілі бір іздеу жүйелерін бөлек көрсетуге болады, мысалы: User-Agent: GoogleBot және User-Agent: YandexBot. Осылайша, маңызды PS ережелері дұрыс белгіленген.
  • Рұқсат етпеу: - (беттің, каталогтың немесе файлдардың) тексеріп шығуға және индекстеуге толық тыйым салады.
  • рұқсат: - толық тексеріп шығуға және индекстеуге мүмкіндік береді (бетті, каталогты немесе файлдарды).
  • Таза параметр: - динамикалық мазмұны бар сайт беттерін шығару үшін қажет. Осы ереженің арқасында сіз сайттағы қайталанатын мазмұннан құтыла аласыз.
  • Тексеру кідірісі: - ереже p-боттардың сайттан құжаттарды жүктеп алу уақыт аралығын анықтайды. Сервердегі жүктемені айтарлықтай азайтуға мүмкіндік береді. Мысалы: «Crawl-delay: 5» n-роботқа сайттан құжаттарды 5 секунд сайын бір реттен жиі жүктеп алуға болатындығын айтады.
  • Хост: your_site.ru - Сайттың негізгі айнасына жауапты. Бұл директивада сіз сайттың басым нұсқасын көрсетуіңіз керек.
  • Сайт картасы: http://your_site.ru/sitemap.xml - сіз болжағандай, бұл директива p-ботқа айтады Сайт картасының қолжетімділігі туралы сайтында.
  • # - пікір қалдыруға мүмкіндік береді. Сіз тек фунт белгісінен кейін ғана түсініктеме бере аласыз. Оны жаңа жолға да, директиваның жалғасы ретінде де орналастыруға болады. Нұсқауларды беру кезінде боттар осы опциялардың барлығын елемейді.

Google немесе Yandex көмегімен Robots.txt файлын қалай тексеруге болады

Бір қызығы, бұл файлды тексеру үшін тек Google немесе Yandex веб-шеберінің панельдері қажет. Бұл өз кезегінде қателерді табуды жеңілдетеді.

  • Google Webmaster - сол жақ мәзірде «Сканерлеу» тармағын, содан кейін «Robots.txt файлын тексеру құралы» қойындысын таңдаңыз. Содан кейін пайда болған терезенің төменгі жолында файлдың атын қосыңыз. Содан кейін «Тексеру» түймесін басып, Google боты сіздің роботтарыңызды қалай көретінін көріңіз.
  • Yandex Webmaster - сол жақ мәзірде «Құралдар» және «Robots.txt талдауы» таңдаңыз. Осыдан кейін пайда болған терезеде жай ғана «Тексеру» түймесін басыңыз.

Айта кету керек, бұл файлды тексеруге арналған көптеген онлайн валидаторлар бар. Мен әрқашан қолымда болатын ең қолжетімділері туралы айттым.

Қорытынды

Барлық сайттар үшін бір тамаша робот жазу мүмкін емес. Мұның себебі - сайттардың өздері, олардың кейбіреулері қолмен жасалған, ал басқалары әртүрлі CMS-де орналасқан. Барлық сайттарда әртүрлі каталог құрылымы және басқалары бар.

Сондықтан әрбір веб-шебер тек p-боттар үшін өзінің бірегей ережелер жинағын жасауға міндетті. Мұндай файл сіздің басымдықтарыңызға сәйкес келеді және құпия ақпаратты іздеуге мүмкіндік бермейді. Осының арқасында индексте қажетсіз қоқыссыз жоғары сапалы мазмұн болады. Мен сізге сайтта қажетті қайта бағыттауларды орнатуды ұсынамын. Бұл көшірмелерді болдырмайды, салмақты қажетті беттерге ауыстырады.

Никола Топты оқығаныңыз үшін рахмет

Пост қаншалықты пайдалы?

Бағалау үшін смайликті басыңыз!

орташа рейтинг 5 / 5. Бағалар саны: 81

Әзірге рейтингтер жоқ. Алдымен бағалаңыз.

Сізге де ұнауы мүмкін...

1 Жауап

  1. Alycia айтты:

    Маған ұнайды, өйткені мен бұрын іздеген нәрсені таптым.
    Сіз менің төрт күнге созылған аңшылықымды аяқтадыңыз! Алла разы болсын сізге. Бүгінгі күніңіз жақсы өтсін.
    Сау болыңыз

Пікір үстеу

Э-пошта мекенжайыңыз жарияланбайды. Міндетті өрістер * таңбаланған

төрт × 2 =