Come creare un file robots.txt per un sito web - correggere robots

Stampa · Время на чтение: 11мин · di · Pubblicato · Aggiornato

riprodurreAscolta l'articolo

Come creare un file robots.txt.

Istruzioni dettagliate su come creare un file robots.txt per sito. Robots.txt è uno degli aspetti più necessari di una vera e propria ottimizzazione dei motori di ricerca del sito e la sicurezza del tuo sito web. Osservando le condizioni per il corretto utilizzo di questo file, è possibile ottenere un certo effetto positivo sul sito.

È possibile specificare una varietà di istruzioni per la maggior parte dei PS. Che indicano al bot di ricerca le necessarie restrizioni o autorizzazioni su scansione di pagine, directory o sezioni del sito.

File Robots.txt - Definizione di base

Robots.txt - ha alcuni standard di eccezione per gli agenti di ricerca (bot), adottati nel gennaio 1944. Il file è qualcosa di simile a un file .htaccess (prescrive anche le regole). Le regole di questo file sono volontariamente seguite dai PS più comuni. Il file può essere costituito da una o più regole, ciascuna delle quali blocca o consente al crawler di accedere a determinati percorsi del sito.

Per impostazione predefinita, questo file non si trova sul sito, il che concede a tutti i PS il permesso completo di indicizzare tutto il contenuto del sito. Tale autorizzazione può portare all'inclusione di importanti pagine tecniche del sito nell'indice del motore di ricerca, che non dovrebbero essere presenti.

Perché abbiamo bisogno di Robots.txt sul sito: il suo impatto sulla promozione nei motori di ricerca

Robots.txt è il fattore più importante nell'ottimizzazione per i motori di ricerca di un sito. Grazie a un insieme di regole correttamente scritte per i robot di ricerca, puoi ottenere un certo aumento del posizionamento di un sito nella ricerca. Cosa danno queste istruzioni:

  1. Bloccato per l'indicizzazione di determinate pagine, sezioni, directory del sito;
  2. Esclusione di pagine che non contengono contenuti utili;
  3. Eliminazione di pagine duplicate e altro.

Per la maggior parte dei siti, tali restrizioni di indicizzazione sono semplicemente necessarie; i piccoli siti a pagina intera sono facoltativi. Tuttavia, alcune direttive devono essere aggiunte a ciascun sito. Ad esempio, divieti di indicizzazione:

  1. Pagine di registrazione, login admin, recupero password;
  2. cataloghi tecnici;
  3. Rss - feed del sito;
  4. Replytocom e altro ancora.

Come creare tu stesso un file Robors.txt più esempi

Le difficoltà nella creazione di un file Robots.txt non possono sorgere nemmeno per i principianti. È sufficiente seguire una certa sequenza di azioni:

  1. Robots.txt è un documento di testo ed è creato da qualsiasi editor di testo disponibile;
  2. L'estensione del file deve essere .txt;
  3. Il nome è robot obbligatorio;
  4. Per sito è consentito un solo file di questo tipo;
  5. Posizionato solo nella directory principale del sito;

È necessario utilizzare un normale editor di testo (blocco note in alternativa). Creiamo un documento .txt con il nome robots. Quindi salviamo e trasferiamo questo documento utilizzando un client FTP nella directory principale del sito. Questi sono i passaggi principali da seguire.

Esempi di Robots.txt standard per CMS popolari

Esempio Robots.txt per amiro.cms:

robots.txt per amiro.cms.

Un esempio di robots.txt per bitrix:

robots.txt per bitrix.

robots.txt per bitrix1.

Esempio Robots.txt per dle:

robots.txt per dle.

Esempio Drupal robots.txt:

robots.txt per drupal.

robots.txt per drupal1.

Esempio Robots.txt per hostcms:

robots.txt per hostcms.

Esempio Robots.txt per joomla3:

robots.txt per joomla3.

Esempio robots.txt per joomla:

robots.txt per joomla.

Esempio Robots.txt per modx evo:

robots.txt per modx evo.

Esempio Robots.txt per modx:

robots.txt per modx.

Esempio Robots.txt per netcat:

robots.txt per netcat.

Esempio Robots.txt per opencat:

robots.txt per opencat.

Esempio Robots.txt per typo3:

robots.txt per typo3.

Esempio Robots.txt per umi:

robots.txt per umi.

Esempio robots.txt per wordpress:

robots.txt per wordpress.

Ecco un esempio del file del mio sito CMS WordPress:

# robots.txt
User-Agent: *
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */amp
Disallow: */amp?
Disallow: */amp/
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Mail.Ru
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: ia_archiver
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: SputnikBot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Bingbot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: */*/?amp
Allow: */tag/?amp
Allow: */page/?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: Yandex-Images
Allow: /wp-content/uploads/

User-agent: Mail.Ru-Images
Allow: /wp-content/uploads/

User-agent: ia_archiver-Images
Allow: /wp-content/uploads/

User-agent: Bingbot-Images
Allow: /wp-content/uploads/


Host: https://nicola.top
Sitemap: https://nicola.top/sitemap_index.xml
Sitemap: https://nicola.top/?feed=googleimagesitemap

Spero che ti sarà utile. Si prega di applicare le regole in base alle considerazioni del proprio sito. Ogni risorsa dovrebbe avere il proprio approccio.

Al momento il mio file è abbreviato in generic. Puoi conoscerlo andando su nicola.top/robots.txt

Come creare un file Robots.txt utilizzando i servizi online

Questo metodo è il più semplice e veloce, adatto a chi ha paura di creare Robots.txt da solo o è semplicemente pigro. Ci sono molti servizi che offrono la creazione di questo file. Ma vale la pena considerare alcune sfumature riguardo a questo metodo. Ad esempio:

  • È necessario tenere conto in anticipo di cosa esattamente si desidera vietare o consentire all'agente.
  • È richiesta la verifica obbligatoria del file finito prima di caricarlo sul sito.
  • Fai attenzione, perché un file online Robots.txt creato in modo errato porterà a una situazione deplorevole. Pertanto, le pagine tecniche e di altro tipo del sito, che a priori non dovrebbero essere presenti, possono entrare nella ricerca.
  • Tuttavia, è meglio dedicare tempo e fatica alla creazione di un robot personalizzato corretto. In questo modo, puoi ricreare una struttura ben fondata di divieti e permessi appropriati per il tuo sito.

Modifica e correzione della sintassi del file Robots.txt

Dopo aver creato Robots.txt con successo, puoi facilmente modificarlo e cambiarlo come preferisci. In questo caso, dovrebbero essere prese in considerazione alcune regole e una sintassi competente. Nel tempo, cambierai ripetutamente questo file. Ma non dimenticare, dopo la modifica, dovrai caricare questo file sul sito. Pertanto, aggiornando il suo contenuto per i robot di ricerca.

Scrivere Robots.txt è molto semplice, la ragione di ciò è la struttura piuttosto semplice del design di questo file. La cosa principale quando si scrivono regole è usare una sintassi rigorosamente definita. Queste regole sono seguite volontariamente da quasi tutti i principali PS. Ecco un elenco di alcune regole per evitare la maggior parte degli errori nel file Robots.txt:

  1. Non ci deve essere più di una specifica direttiva su una riga;
  2. Ogni regola inizia su una nuova riga;
  3. Uno spazio all'inizio di una riga è stato rimosso;
  4. I commenti sono consentiti dopo il carattere #;
  5. I robot vuoti conteranno come autorizzazione completa all'indicizzazione;
  6. Il nome di questo file è possibile solo nel formato valido “robots”;
  7. La dimensione del file non deve superare i 32kb;
  8. È consentita una sola regola nelle direttive Allow e Disallow. Un valore vuoto dopo Consenti: o Non consentire: equivale a un'autorizzazione completa;
  9. Tutte le regole devono essere scritte in minuscolo;
  10. Il file deve essere sempre disponibile;
  11. Una riga vuota dopo le regole specificate indica la fine completa delle regole della direttiva User-agent;
  12. È auspicabile prescrivere le regole per ogni PS separatamente;
  13. Se la regola è una directory del sito, assicurati di inserire una barra (/) prima dell'inizio;
  14. Non ci dovrebbero essere virgolette in una stringa o in una regola;
  15. È necessario considerare una rigida struttura di regole che non corrisponda più al tuo sito;
  16. Robots.txt dovrebbe essere minimalista e trasmettere chiaramente il significato previsto;

Configurazione corretta del file Robots.txt - ortografia corretta dei comandi

Per ottenere un risultato positivo quando si utilizzano i robot, è necessario configurarlo correttamente. Tutti i comandi principali di questo file con le istruzioni sono seguiti dai più grandi motori di ricerca Google e Yandex. Altri PS potrebbero ignorare alcune istruzioni. Come rendere robots.txt più reattivo alla maggior parte dei motori di ricerca? Qui è necessario comprendere le regole di base per lavorare con questo file, che sono state discusse sopra.
Considera i comandi di base:

  • Agente utente: * - le istruzioni si applicheranno a tutti i robot ps. È anche possibile specificare alcuni motori di ricerca separatamente, ad esempio: User-Agent: GoogleBot e User-Agent: YandexBot. Pertanto, le regole per PS importanti sono designate correttamente.
  • Non consentire: - proibisce completamente la scansione e l'indicizzazione (di una pagina, directory o file).
  • permettere: - consente completamente la scansione e l'indicizzazione (di una pagina, directory o file).
  • Parametro pulito: - necessario per escludere le pagine del sito con contenuto dinamico. Grazie a questa regola, puoi eliminare i contenuti duplicati sul sito.
  • Ritardo scansione: - la regola specifica l'intervallo di tempo entro il quale i p-bot scaricano i documenti dal sito. Consente di ridurre significativamente il carico sul server. Ad esempio: "Crawl-delay: 5" dirà a n-robot che è possibile scaricare documenti dal sito non più di una volta ogni 5 secondi.
  • Host: tuo_sito.ru - Responsabile del mirror principale del sito. In questa direttiva è necessario specificare la versione prioritaria del sito.
  • Mappa del sito: http://your_site.ru/sitemap.xml - come puoi immaginare, questa direttiva dice al p-bot sulla disponibilità della Sitemap In linea.
  • # - ti permette di lasciare commenti. Puoi commentare solo dopo il cancelletto. Può essere collocato sia su una nuova riga che come continuazione della direttiva. Tutte queste opzioni verranno ignorate dai bot durante il passaggio delle istruzioni.

Come controllare Robots.txt utilizzando Google o Yandex

Stranamente, per controllare questo file sono necessari solo i pannelli webmaster di Google o Yandex. Il che a sua volta rende molto più facile trovare gli errori.

  • Google Webmaster: seleziona "Scansione" nel menu a sinistra e quindi la scheda "Strumento di controllo file Robots.txt". Quindi, nella riga inferiore della finestra che appare, aggiungi il nome del file. Quindi fai clic su "Controlla" e guarda come il bot di Google vede i tuoi robot.
  • Yandex Webmaster: nel menu a sinistra, seleziona "Strumenti" e "Analisi di Robots.txt". Successivamente, nella finestra che appare, fai semplicemente clic sul pulsante "Verifica".

Vale la pena notare che ci sono molti validatori online per controllare questo file. Ho parlato di quelli più convenienti che sono sempre a portata di mano.

Conclusione

È impossibile scrivere un robot perfetto per tutti i siti. La ragione di ciò sono i siti stessi, alcuni dei quali sono realizzati a mano e altri si trovano su diversi CMS. Assolutamente tutti i siti hanno una struttura di directory diversa e altre cose.

Pertanto, ogni webmaster è semplicemente obbligato a creare il proprio insieme unico di regole per i p-bot. Tale file soddisferà le tue priorità e non ti consentirà di entrare nella ricerca di informazioni riservate. Grazie a ciò, l'indice conterrà contenuti di alta qualità senza spazzatura inutile. Ti consiglio di impostare anche i reindirizzamenti necessari sul tuo sito. Ciò eviterà duplicati, trasferirà il peso alle pagine necessarie.

Grazie per aver letto Nicola Top

Quanto è utile il post?

Clicca sulla faccina per votare!

voto medio 5 / 5. Numero di valutazioni: 81

Non ci sono ancora valutazioni. Valuta prima.

Potrebbero interessarti anche...

Una risposta

  1. Alycia ha detto:

    Mi diverto, perché ho trovato esattamente quello che stavo cercando.
    Hai concluso la mia lunga caccia di quattro giorni! Dio ti benedica uomo. Vi auguro una buona giornata.
    Ciao

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

14 + 10 =