Como criar um arquivo robots.txt para um site - robôs corretos

imprimir · Время на чтение: 11mínimo · por · Publicados · Atualizada

jogarOuça este artigo

Como criar um arquivo robots.txt.

Instruções detalhadas sobre como criar um arquivo robots.txt para local. Robots.txt é um dos aspectos mais essenciais de uma otimização de mecanismo de pesquisa completa do site e da segurança do seu site. Ao observar as condições para o uso adequado deste arquivo, você pode obter um certo efeito positivo no site.

É possível especificar uma variedade de instruções para a maioria dos PSs. Que indicam ao bot de busca as restrições ou permissões necessárias para escanear páginas, diretórios ou seções do site.

O conteúdo do artigo:

Arquivo Robots.txt - Definição Básica

Robots.txt - tem certos padrões de exceção para agentes de busca (bots), que foram adotados em janeiro de 1944. O arquivo lembra um pouco o arquivo .htaccess (as regras também são escritas nele). As regras deste arquivo são seguidas voluntariamente pelos PS mais comuns. O arquivo pode consistir em uma ou mais regras, cada uma das quais bloqueia ou permite que o rastreador acesse determinados caminhos no site.

Por padrão, esse arquivo não está no site - o que dá a todos os PSs permissão total para indexar todo o conteúdo do site. Essa permissão pode levar à inclusão de importantes páginas técnicas do site no índice do mecanismo de busca, que não deveriam estar lá.

Por que precisamos do Robots.txt no site - seu impacto na promoção nos mecanismos de pesquisa

Robots.txt é o fator mais importante na otimização de mecanismo de pesquisa de um site. Graças a um conjunto de regras devidamente escrito para bots de pesquisa, você pode obter um certo aumento na classificação de um site na pesquisa. O que essas instruções fornecem:

  1. Bloqueado para indexação de determinadas páginas, seções, diretórios do site;
  2. Exclusão de páginas que não contenham conteúdo útil;
  3. Eliminação de páginas duplicadas e muito mais.

Para a maioria dos sites, essas restrições de indexação são simplesmente necessárias; pequenos sites de página inteira são opcionais. No entanto, certas diretivas devem ser adicionadas a cada site. Por exemplo, proibições de indexação:

  1. Páginas de registro, login de administrador, recuperação de senha;
  2. Catálogos técnicos;
  3. RSS - feeds do site;
  4. Replytocom e muito mais.

Como criar você mesmo um arquivo Robors.txt mais exemplos

Dificuldades na criação de um arquivo Robots.txt não podem surgir mesmo para iniciantes. Basta seguir uma certa sequência de ações:

  1. Robots.txt é um documento de texto e é criado por qualquer editor de texto disponível;
  2. A extensão do arquivo deve ser .txt;
  3. O nome é robôs obrigatórios;
  4. Por site, apenas um desses arquivos é permitido;
  5. Colocado apenas no diretório raiz do site;

Você precisa usar um editor de texto comum (notepad como alternativa). Criamos um documento .txt com o nome robots. Em seguida, salvamos e transferimos este documento usando um cliente FTP para o diretório raiz do site. Estes são os principais passos a seguir.

Exemplos de Robots.txt padrão para CMS populares

Exemplo de robots.txt para amiro.cms:

robots.txt para amiro.cms.

Um exemplo de robots.txt para bitrix:

robots.txt para bitrix.

robots.txt para bitrix1.

Exemplo de robots.txt para dle:

robots.txt para dle.

Drupal robots.txt exemplo:

robots.txt para drupal.

robots.txt para drupal1.

Exemplo de robots.txt para hostcms:

robots.txt para hostcms.

Exemplo de robots.txt para joomla3:

robots.txt para joomla3.

Exemplo robots.txt para joomla:

robots.txt para joomla.

Exemplo de robots.txt para modx evo:

robots.txt para modx evo.

Exemplo de robots.txt para modx:

robots.txt para modx.

Exemplo de robots.txt para netcat:

robots.txt para netcat.

Exemplo de robots.txt para opencat:

robots.txt para opencat.

Exemplo de robots.txt para typo3:

robots.txt para typo3.

Exemplo de robots.txt para umi:

robots.txt para umi.

Exemplo robots.txt para wordpress:

robots.txt para wordpress.

Aqui está um exemplo do meu arquivo de site WordPress CMS:

# robots.txt User-Agent: * Não permitir: /wp-json/ Não permitir: /wp-login.php Não permitir: /wp-register.php Não permitir: /xmlrpc.php Não permitir: /template.html Não permitir: /wp-admin Proibir: */trackback Proibir: */comments* Proibir: *comments_* Proibir: /search Proibir: /author/* Proibir: /users/ Proibir: /*?replytocom Proibir: /*?replytocom* Proibir: /comment-page * Não permitir: */tag/* Não permitir: /tag/* Não permitir: /?s=* Não permitir: /?s= Não permitir: */feed Não permitir: */rss Não permitir: */embed Não permitir: /?p= Não permitir: *.php Não permitir: /ads.txt Não permitir: */stylesheet Não permitir: */stylesheet* Permitir: /wp-content/uploads/ Permitir: /wp-includes Permitir: /wp-content Permitir: */uploads Permitir: /* /*.js Permitir: /*/*.css Permitir: /wp-*.png Permitir: /wp-*.jpg Permitir: /wp-*.jpeg Permitir: /wp-*.gif Permitir: /wp-admin /admin-ajax.php User-agent: Yandex Proibir: /wp-json/ Proibir: /wp-login.php Proibir: /wp-register.php Proibir: /xmlrpc.php Proibir: /template.html Proibir: /wp -admin Proibir: */trackback Proibir: */comments* Proibir: *comments_* Proibir: /search Proibir: /author/* Proibir: /users/ Proibir: /*?replytocom Proibir: /*?replytocom* Proibir: /comment -page* Proibir: */tag/* Proibir: /tag/* Proibir: /?s=* Proibir: /?s= Proibir: */feed Proibir: */rss Proibir: */embed Proibir: /?s= Não permitir: /?p= Não permitir: *.php Não permitir: /ads.txt Não permitir: */amp Não permitir: */amp? Proibir: */amp/ Proibir: */stylesheet Proibir: */stylesheet* Permitir: /wp-content/uploads/ Permitir: /wp-includes Permitir: /wp-content Permitir: */uploads Permitir: /*/*. js Permitir: /*/*.css Permitir: /wp-*.png Permitir: /wp-*.jpg Permitir: /wp-*.jpeg Permitir: /wp-*.gif Permitir: /wp-admin/admin- ajax.php User-agent: Mail.Ru Não permitir: /wp-json/ Não permitir: /wp-login.php Não permitir: /wp-register.php Não permitir: /xmlrpc.php Não permitir: /template.html Não permitir: /wp- admin Proibir: */trackback Proibir: */comments* Proibir: *comments_* Proibir: /search Proibir: /author/* Proibir: /users/ Proibir: /*?replytocom Proibir: /*?replytocom* Proibir: /comment- page* Proibir: */tag/* Proibir: /tag/* Proibir: /?s=* Proibir: /?s= Proibir: */feed Proibir: */rss Proibir: */embed Proibir: /?s= Proibir : /?p= Não permitir: *.php Não permitir: /ads.txt Não permitir: */stylesheet Não permitir: */stylesheet* Permitir: /wp-content/uploads/ Permitir: /wp-includes Permitir: /wp-content Permitir: */uploads Permitir: /*/*.js Permitir: /*/*.css Permitir: /wp-*.png Permitir: /wp-*.jpg Permitir: /wp-*.jpeg Permitir: /wp-*. gif Permitir: /wp-admin/admin-ajax.php User-agent: ia_archiver Proibir: /wp-json/ Proibir: /wp-login.php Proibir: /wp-register.php Proibir: /xmlrpc.php Proibir: / template.html Proibir: /wp-admin Proibir: */trackback Proibir: */comments* Proibir: *comments_* Proibir: /search Proibir: /author/* Proibir: /users/ Proibir: /*?replytocom Proibir: /* ?replytocom* Não permitir: /comment-page* Não permitir: */tag/* Não permitir: /tag/* Não permitir: /?s=* Não permitir: /?s= Não permitir: */feed Não permitir: */rss Não permitir: */ incorporar Não permitir: /?s= Não permitir: /?p= Não permitir: *.php Não permitir: /ads.txt Não permitir: */stylesheet Não permitir: */stylesheet* Permitir: */?amp Permitir: /wp-content/uploads/ Permitir: /wp-includes Permitir: /wp-content Permitir: */uploads Permitir: /*/*.js Permitir: /*/*.css Permitir: /wp-*.png Permitir: /wp-*.jpg Permitir : /wp-*.jpeg Permitir: /wp-*.gif Permitir: /wp-admin/admin-ajax.php User-agent: SputnikBot Proibir: /wp-json/ Proibir: /wp-login.php Proibir: / wp-register.php Não permitir: /xmlrpc.php Não permitir: /template.html Não permitir: /wp-admin Não permitir: */trackback Não permitir: */comments* Não permitir: *comments_* Não permitir: /search Não permitir: /author/* Não permitir : /users/ Não permitir: /*?replytocom Não permitir: /*?replytocom* Não permitir: /comment-page* Não permitir: */tag/* Não permitir: /tag/* Não permitir: /?s=* Não permitir: /?s= Não permitir: */feed Não permitir: */rss Não permitir: */embed Não permitir: /?s= Não permitir: /?p= Não permitir: *.php Não permitir: /ads.txt Não permitir: */stylesheet Não permitir: */stylesheet* Permitir : */?amp Permitir: /wp-content/uploads/ Permitir: /wp-includes Permitir: /wp-content Permitir: */uploads Permitir: /*/*.js Permitir: /*/*.css Permitir: / wp-*.png Permitir: /wp-*.jpg Permitir: /wp-*.jpeg Permitir: /wp-*.gif Permitir: /wp-admin/admin-ajax.php Agente do usuário: Bingbot Não permitir: /wp -json/ Não permitir: /wp-login.php Não permitir: /wp-register.php Não permitir: /xmlrpc.php Não permitir: /template.html Não permitir: /wp-admin Não permitir: */trackback Não permitir: */comments* Não permitir: *comments_* Proibir: /search Proibir: /autor/* Proibir: /users/ Proibir: /*?replytocom Proibir: /*?replytocom* Proibir: /comment-page* Proibir: */tag/* Proibir: /tag/ * Não permitir: /?s=* Não permitir: /?s= Não permitir: */feed Não permitir: */rss Não permitir: */embed Não permitir: /?s= Não permitir: /?p= Não permitir: *.php Não permitir: /ads .txt Proibir: */stylesheet Proibir: */stylesheet* Permitir: */?amp Permitir: /wp-content/uploads/ Permitir: /wp-includes Permitir: /wp-content Permitir: */uploads Permitir: /*/ *.js Permitir: /*/*.css Permitir: /wp-*.png Permitir: /wp-*.jpg Permitir: /wp-*.jpeg Permitir: /wp-*.gif Permitir: /wp-admin/ admin-ajax.php User-agent: Googlebot Não permitir: /wp-json/ Não permitir: /wp-login.php Não permitir: /wp-register.php Não permitir: /xmlrpc.php Não permitir: /template.html Não permitir: /wp- admin Proibir: */trackback Proibir: */comments* Proibir: *comments_* Proibir: /search Proibir: /author/* Proibir: /users/ Proibir: /*?replytocom Proibir: /*?replytocom* Proibir: /comment- page* Proibir: */tag/* Proibir: /tag/* Proibir: /?s=* Proibir: /?s= Proibir: */feed Proibir: */rss Proibir: */embed Proibir: /?s= Proibir : /?p= Não permitir: *.php Não permitir: */stylesheet Não permitir: */stylesheet* Permitir: */?amp Permitir: */*/?amp Permitir: */tag/?amp Permitir: */page/? amp Permitir: /wp-content/uploads/ Permitir: /wp-includes Permitir: /wp-content Permitir: */uploads Permitir: /*/*.js Permitir: /*/*.css Permitir: /wp-*. png Permitir: /wp-*.jpg Permitir: /wp-*.jpeg Permitir: /wp-*.gif Permitir: /wp-admin/admin-ajax.php User-agent: Googlebot-Image Permitir: /wp-content /uploads/ User-agent: Yandex-Images Allow: /wp-content/uploads/ User-agent: Mail.Ru-Images Allow: /wp-content/uploads/ User-agent: ia_archiver-Images Allow: /wp-content /uploads/ User-agent: Bingbot-Images Allow: /wp-content/uploads/ Host: https://nicola.top Mapa do site: https://nicola.top/sitemap_index.xml Mapa do site: https://nicola.top /?feed=googleimagesitemap

Espero que seja útil para você. Por favor, aplique as regras de acordo com as considerações do seu site. Cada recurso deve ter sua própria abordagem.

No momento, meu arquivo está reduzido para genérico. Você pode conhecê-lo acessando nicola.top/robots.txt

Como criar um arquivo Robots.txt usando serviços online

Este método é o mais fácil e rápido, adequado para quem tem medo de criar o Robots.txt por conta própria ou simplesmente é preguiçoso. Existem muitos serviços que oferecem a criação desse arquivo. Mas vale a pena considerar algumas nuances em relação a esse método. Por exemplo:

  • É necessário levar em consideração com antecedência o que exatamente você deseja proibir ou permitir ao agente.
  • A verificação obrigatória do arquivo finalizado é necessária antes de carregá-lo no site.
  • Tenha cuidado, porque um arquivo online Robots.txt criado incorretamente levará a uma situação deplorável. Assim, as páginas técnicas e outras do site, que a priori não deveriam estar ali, podem entrar na busca.
  • Mesmo assim, é melhor gastar tempo e esforço para criar um robô personalizado correto. Dessa forma, você pode recriar uma estrutura bem fundamentada de proibições e permissões apropriadas para o seu site.

Editando e Corrigindo a Sintaxe do Arquivo Robots.txt

Depois de criar Robots.txt com sucesso, você pode editá-lo e alterá-lo facilmente como quiser. Nesse caso, algumas regras e sintaxe competente devem ser levadas em consideração. Com o tempo, você alterará esse arquivo repetidamente. Mas não se esqueça, após a edição, você precisará fazer o upload deste arquivo para o site. Assim, atualizando seu conteúdo para os robôs de busca.

Escrever Robots.txt é muito simples, a razão para isso é a estrutura bastante simples do design deste arquivo. O principal ao escrever regras é usar uma sintaxe estritamente definida. Essas regras são seguidas voluntariamente por quase todos os principais PSs. Aqui está uma lista de algumas regras para evitar a maioria dos erros no arquivo Robots.txt:

  1. Não deve haver mais de uma diretiva especificada em uma linha;
  2. Cada regra começa em uma nova linha;
  3. Um espaço no início de uma linha foi removido;
  4. Comentários são permitidos após o caractere #;
  5. Os robôs vazios contarão como permissão de indexação completa;
  6. O nome deste arquivo só é possível no formato válido “robots”;
  7. O tamanho do arquivo não deve exceder 32kb;
  8. Apenas uma regra é permitida nas diretivas Allow e Disallow. Um valor vazio após Allow: ou Disallow: é equivalente à permissão total;
  9. Todas as regras devem ser escritas em letras minúsculas;
  10. O arquivo deve estar sempre disponível;
  11. Uma linha vazia após as regras especificadas indica o fim completo das regras da diretiva User-agent;
  12. É desejável prescrever as regras para cada PS separadamente;
  13. Se a regra for um diretório de sites, certifique-se de colocar uma barra (/) antes de seu início;
  14. Não deve haver aspas em uma string ou em uma regra;
  15. É necessário considerar uma rígida estrutura de regras que não corresponda mais ao seu site;
  16. Robots.txt deve ser minimalista e transmitir claramente o significado pretendido;

Configuração adequada do arquivo Robots.txt - grafia correta dos comandos

Para obter um resultado positivo ao usar robôs, você precisa configurá-lo corretamente. Todos os principais comandos deste arquivo com instruções são seguidos pelos maiores mecanismos de busca Google e Yandex. Outros PSs podem ignorar algumas instruções. Como tornar o robots.txt mais responsivo para a maioria dos mecanismos de pesquisa? Aqui você precisa entender as regras básicas para trabalhar com este arquivo, discutidas acima.
Considere os comandos básicos:

  • Agente de usuário: * — as instruções serão aplicadas a absolutamente todos os bots ps. Também é possível especificar determinados mecanismos de pesquisa separadamente, por exemplo: User-Agent: GoogleBot e User-Agent: YandexBot. Assim, as regras para PSs importantes são designadas corretamente.
  • Não permitir: - proíbe completamente o rastreamento e indexação (de uma página, diretório ou arquivos).
  • permitir: - permite totalmente o rastreamento e indexação (de uma página, diretório ou arquivos).
  • Parâmetro de limpeza: - necessário para excluir páginas do site com conteúdo dinâmico. Graças a esta regra, você pode se livrar de conteúdo duplicado no site.
  • Atraso no rastreamento: - a regra especifica o intervalo de tempo para os p-bots baixarem os documentos do site. Permite reduzir significativamente a carga no servidor. Por exemplo: “Crawl-delay: 5” dirá ao n-robot que o download de documentos do site é possível no máximo uma vez a cada 5 segundos.
  • Host: seu_site.ru - Responsável pelo espelho principal do site. Nesta diretiva, você deve especificar a versão prioritária do site.
  • Mapa do site: http://your_site.ru/sitemap.xml - como você pode imaginar, esta diretiva informa ao p-bot sobre a presença de um Sitemap no site.
  • # - permite que você deixe comentários. Você pode comentar somente após o sinal de libra. Pode ser colocado tanto em uma nova linha quanto como uma continuação da diretiva. Todas essas opções serão ignoradas pelos bots ao passar as instruções.

Como verificar Robots.txt usando Google ou Yandex

Curiosamente, apenas os painéis do webmaster do Google ou Yandex são necessários para verificar este arquivo. O que, por sua vez, torna muito mais fácil encontrar erros.

  • Google Webmaster - selecione "Digitalização" no menu à esquerda e, em seguida, a guia "Ferramenta de verificação de arquivo Robots.txt". Em seguida, na linha inferior da janela que aparece, adicione o nome do arquivo. Em seguida, clique em "Verificar" e veja como o bot do Google vê seus robôs.
  • Yandex Webmaster - no menu à esquerda, selecione "Ferramentas" e "Análise de Robots.txt". Depois disso, na janela que aparece, basta clicar no botão “Verificar”.

Vale a pena notar que existem muitos validadores online para verificar este arquivo. Falei sobre os mais acessíveis que estão sempre à mão.

Conclusão

É impossível escrever um robots perfeito para todos os sites. A razão para isso são os próprios sites, alguns feitos à mão e outros localizados em diferentes CMS. Absolutamente todos os sites têm uma estrutura de diretório diferente e outras coisas.

Portanto, cada Webmaster é simplesmente obrigado a criar seu próprio conjunto exclusivo de regras para p-bots. Esse arquivo atenderá às suas prioridades e não permitirá que você entre na busca por informações confidenciais. Graças a isso, o índice conterá conteúdo de alta qualidade sem lixo desnecessário. Eu recomendo que você também configure os redirecionamentos necessários em seu site. Isso evitará duplicatas, transferirá o peso para as páginas necessárias.

Lendo este artigo:

Obrigado por ler: AJUDANTE DE SEO | NICOLA.TOP

Quão útil foi este post?

Clique em uma estrela para avaliá-la!

Classificação média 5 / 5. contagem de votos: 219

Nenhum voto até agora! Seja o primeiro a avaliar este post.

Você pode gostar...

1 resposta

  1. Alycia diz:

    Eu gosto, porque encontrei exatamente o que eu costumava procurar.
    Você encerrou minha longa caçada de quatro dias! Deus te abençoe cara. Tenha um ótimo dia.
    Tchau

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

3 + 20 =