Меню

Как создать файл robots.txt для сайта — правильный robots.txt инструкция

Создание файла Robots.txt - полная инструкция с примерами и объяснениями.

Подробная инструкция о том, как создать файл robots.txt для сайта. Robots.txt является одним из самых необходимых аспектов полноценной поисковой оптимизации сайта. Соблюдая условия грамотного использования этого файла, можно достичь определенного положительного эффекта на сайт. Возможно указание разнообразных инструкций для большинства PS. Которые указывают поисковому боту необходимые ограничения или разрешения на сканирование страниц, каталогов или разделов сайта.

Файл Robots.txt — основное определение

Robots.txt — имеет определенные стандарты исключений для поисковых агентов (ботов), который был принят в январе 1944 года. Правилам этого файла добровольно следуют самые распространенные PS. Файл может состоять из одного или нескольких правил, каждое из которых блокирует или разрешает поисковому роботу доступ к определенным путям на сайте.

По умолчанию этого файла нет на сайте — что дает всем PS полное разрешение на индексирование всего содержимого сайта. Такое разрешение может привести к попаданию в индекс поисковиков важных технических страниц сайта, которых там быть не должно.

Для чего нужен Robots.txt на сайте — его влияние на продвижение в поисковиках

Robots.txt — это наиважнейший фактор поисковой оптимизации сайта. Благодаря правильно прописанному набору правил для поисковых ботов, можно достичь определенного повышения ранжирования сайта в поиске. Что дают такие инструкции:

  1. Заперты на индексирование определенных страниц, разделов, каталогов сайта.
  2. Исключение страниц не содержащих полезного контента.
  3. Исключение дублей страниц и прочее.

Для большинства сайтов, такие ограничения на индексирование просто необходимы для небольших полностраничных необязательны. Тем не менее определенные директивы, необходимо добавлять каждому сайту. К примеру запреты на индексацию:

  1. Страниц регистрации, входа в админку, восстановления пароля.
  2. Технических каталогов.
  3. Rss — ленты сайта.
  4. Replytocom и прочего.

Как создать правильный Robors.txt самостоятельно

Затруднений при создании файла Robots.txt не может возникнуть даже у начинающих. Достаточно следовать определенной последовательности действий:

  1. Robots.txt — текстовый документ и создается любым доступным текстовым редактором.
  2. Расширение файла должно быть обязательно .txt.
  3. Название обязательно robots.
  4. На одном сайте, разрешен только один такой файл.
  5. Размещается только в корневом каталоге сайта.

Вам необходимо воспользоваться обыкновенным текстовым редактором (блокнотом как альтернативой). Создаем документ формата .txt и названием robots. Затем сохраняем и переносим этот документ с помощью FTP клиента в корневой каталог сайта. Это основные действия которые необходимо выполнить.

Создание Robots.txt с помощью онлайн сервисов

Этот метод самый простой и быстрый, подойдет тем кто боится самостоятельно создавать Robots.txt или просто ленится. Сервисов предлагающих создание этого файла огромное множество. Но стоит учитывать некоторые нюансы касательно этого способа. К примеру:

  1. Необходимо заранее учесть, что именно Вы желаете запретить, либо разрешить агенту.
  2. Необходима обязательная проверка готового файла перед загрузкой его на сайт.
  3. Будьте внимательны, ведь некорректно созданный файл Robots.txt online, приведет к плачевной ситуации. Таким образом в поиск могут попасть, технические и прочие страницы сайта, которых там быть в априори не должно.

Все таки, лучше потратить время и усилия для создания корректного пользовательского роботса. Таким образом можно воссоздать четко обоснованную структуру запретов и разрешений соответствующую вашему сайту.

Редактирование и правильный синтаксис файла Robots.txt

После успешно созданного Robots.txt, его можно спокойно редактировать и изменять как Вам будет угодно. При этом следует учесть некоторые правила и грамотный синтаксис. По прошествии некоторого времени вы неоднократно будете изменять этот файл. Но не забывайте, после проведения работ по редактированию, Вам необходимо будет выгрузить этот файл на сайт. Тем самым обновив его содержимое для поисковых роботов.

Написать Robots.txt очень просто, причина этому достаточно простая структура оформления данного файла. Главное при написании правил, использовать строго определенный синтаксис. Данным правилам добровольно следуют, практически все основные ПС. Вот список некоторых правил, для избежания большинства ошибок в файле Robots.txt:

  1. В одной строке не должно быть более одной указанной директивы.
  2. Каждое правило начинается с новой строки.
  3. Исключен пробел в начале строки.
  4. Допустимы комментарии после символа #.
  5. Пустой Роботс будет считаться как полное разрешение на индексацию.
  6. Название этого файла возможно только в допустимом формате «robots».
  7. Размер файла не должен превышать 32кб.
  8. В директивах Allow и Disallow допустимо только одно правило. Пустое значение после Allow: или Disallow: равносильны полному разрешению.
  9. Все правила должны быть прописаны в нижнем регистре.
  10. Файл должен быть доступен всегда.
  11. Пустая строка после указанных правил, указывает на полное окончание правил директивы User-agent.
  12. Желательно прописывать правила, каждой ПС по отдельности.
  13. Если правило это директория сайта, то обязательно ставьте слеш (/) перед ее началом.
  14. Кавычек в строке или в правиле быть не должно.
  15. Необходимо учитывать строгую структуру правил, соответствующую Вашему сайту не более.
  16. Robots.txt должен быть минималистичен и четко отображать передаваемый смысл.

Грамотная настройка файла Robots.txt — правильное написание команд

Чтобы получить позитивный результат при использовании роботс, необходимо правильно его настроить. Всем основным командам данного файла с инструкциями, следуют самые масштабные  поисковые системы Google and Yandex. Остальные PS могут игнорировать некоторые инструкции. Как сделать robots.txt наиболее отзывчивым большинству поисковиков? Здесь необходимо понимание основных правил работы с этим файлом о которых говорилось выше.
Рассмотрим основные команды:

User-Agent: * — инструкции будут касаться абсолютно  всех ps ботов. Также возможно указание определенных поисковых систем по отдельности  к примеру:  User-Agent: GoogleBot и User-Agent: YandexBot. Таким образом корректно обозначаются правила для важных ПС.

Disallow: — полностью запрещает обход и индексацию (страницы, каталога или файлов).

Allow: — полностью разрешает обход и индексацию (страницы, каталога или файлов).

Clean-param: — нужен для исключения страниц сайта с динамическим контентом. Благодаря этому правилу можно избавиться от дублей контента на сайте.

Crawl-delay: — правило указывает интервал времени п-ботам для выгрузки документов с сайта. Позволяет значительно уменьшить нагрузки на сервер. К примеру: «Crawl-delay: 5» — скажет п-роботу, что скачивание документов с сайта возможно не чаще 1-го раза в 5 секунд.

Host: ваш_сайт.ru — отвечает за главное зеркало сайта. В этой директиве необходимо прописать приоритетную версию сайта.

Sitemap: http://ваш_сайт.ru/sitemap.xml — как Вы могли догадаться данная директива подсказывает п-боту о наличие Sitemap на сайте.

— позволяет оставлять комментарии. Комментировать можно, только после знака решетки. Размещать ее можно как в новой строке, так и продолжением директивы. Все эти варианты будут игнорироваться ботами при проходе инструкций.

Примеры Robots.txs для всех основных систем управления контентом (CMS)

Чтобы скопировать инструкции, Вам необходимо нажать на кнопку с подсказкой.

WordPress (WP)

Нажми на меня я подсказка с кодомRobots.txt для modx wordpress - пример файла

HostCMS

Нажми на меня я подсказка с кодом

Robots.txt для hostcms - пример файла

Joomla

Нажми на меня я подсказка с кодом

Robots.txt для joomla - пример файла

Joomla 3

Нажми на меня я подсказка с кодом

Robots.txt для joomla3 - пример файла

MODx Evo

Нажми на меня я подсказка с кодом

Robots.txt для modx evo - пример файла

NetCat

Нажми на меня я подсказка с кодом

Robots.txt для netcat - пример файла

MODx

Нажми на меня я подсказка с кодом

Robots.txt для modx - пример файла

OpenCart

Нажми на меня я подсказка с кодом

Robots.txt для opencat - пример файла

UMI

Нажми на меня я подсказка с кодом

Robots.txt для modx umi - пример файла

Amiro.CMS

Нажми на меня я подсказка с кодом

Robots.txt для amiro.cms - пример файла

Bitrix

Нажми на меня я подсказка с кодом

Robots.txt для bitrix - пример файла

Robots.txt для bitrix1 - пример файла

DLE

Нажми на меня я подсказка с кодом

Robots.txt для dle - пример файла

Drupal

Нажми на меня я подсказка с кодом

Robots.txt для drupal - пример файла

Robots.txt для drupal1 - пример файла

Как проверить Robots.txt с помощью Google или Yandex

Как не странно для проверки этого файла необходимы только панели вебмастера Google или Yandex. Что в свою очередь значительно облегчает поиск ошибок.

Вебмастер Google — выбираем в левом меню «Сканирование» и затем вкладку «Инструмент проверки файла Robots.txt». Затем в нижней строке появившегося окна допишите название файла. Затем нажмите на «Проверить» и посмотрите как бот гугла видит Ваш роботс.

Вебмастер Yandex — в левом меню выбираем «Инструменты» и «Анализ Robots.txt». После этого в появившимся окне просто нажмите на кнопку «Проверить».

Стоит отметить, что онлайн валидаторов для проверки этого файла очень много. Я рассказал о самых доступных, которые находятся всегда под рукой.

Заключение

Написать один идеальный robots для всех сайтов невозможно. Причина этому сами сайты, некоторые из которых сделаны руками, а другие расположены на различных CMS. У абсолютно всех сайтов различная структура каталогов и прочего. Поэтому каждый Вебмастер просто обязан создать свой уникальный набор правил для п-ботов. Такой файл будет отвечать Вашим приоритетам и не позволит попасть в поиск конфиденциальной информации. Благодаря этому в индексе будет находиться качественный контент без лишнего мусора.

Спасибо, что читаешь Nicola Top

Комментарии 1

  • Заинтересовалась данной статьей, поскольку базовыми знаниями в этой области имею и пользуюсь , но настолько полной информации о Robots.txt не знала. Некоторые аспекты применения очень интересны.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

четырнадцать + два =