Come creare un file robots.txt per un sito web - correggere robots

Stampa · Время на чтение: 11мин · di · Pubblicato · Aggiornato

giocareAscolta questo articolo

Come creare un file robots.txt.

Istruzioni dettagliate su come creare un file robots.txt per sito. Robots.txt è uno degli aspetti più essenziali di una vera e propria ottimizzazione dei motori di ricerca del sito e della sicurezza del tuo sito. Osservando le condizioni per il corretto utilizzo di questo file, è possibile ottenere un certo effetto positivo sul sito.

È possibile specificare una varietà di istruzioni per la maggior parte dei PS. Che indicano al bot di ricerca le restrizioni o i permessi necessari per scansionare pagine, directory o sezioni del sito.

Il contenuto dell'articolo:

File Robots.txt - Definizione di base

Robots.txt - ha alcuni standard di eccezione per gli agenti di ricerca (bot), adottati nel gennaio 1944. Il file ricorda in qualche modo il file .htaccess (anche le regole sono scritte al suo interno). Le regole di questo file sono volontariamente seguite dai PS più comuni. Il file può essere costituito da una o più regole, ciascuna delle quali blocca o consente al crawler di accedere a determinati percorsi del sito.

Per impostazione predefinita, questo file non si trova sul sito, il che concede a tutti i PS il permesso completo di indicizzare tutto il contenuto del sito. Tale autorizzazione può portare all'inclusione di importanti pagine tecniche del sito nell'indice del motore di ricerca, che non dovrebbero essere presenti.

Perché abbiamo bisogno di Robots.txt sul sito: il suo impatto sulla promozione nei motori di ricerca

Robots.txt è il fattore più importante nell'ottimizzazione per i motori di ricerca di un sito. Grazie a un insieme di regole correttamente scritte per i robot di ricerca, puoi ottenere un certo aumento del posizionamento di un sito nella ricerca. Cosa danno queste istruzioni:

  1. Bloccato per l'indicizzazione di determinate pagine, sezioni, directory del sito;
  2. Esclusione di pagine che non contengono contenuti utili;
  3. Eliminazione di pagine duplicate e altro.

Per la maggior parte dei siti, tali restrizioni di indicizzazione sono semplicemente necessarie; i piccoli siti a pagina intera sono facoltativi. Tuttavia, alcune direttive devono essere aggiunte a ciascun sito. Ad esempio, divieti di indicizzazione:

  1. Pagine di registrazione, login admin, recupero password;
  2. cataloghi tecnici;
  3. Rss - feed del sito;
  4. Replytocom e altro ancora.

Come creare tu stesso un file Robors.txt più esempi

Le difficoltà nella creazione di un file Robots.txt non possono sorgere nemmeno per i principianti. È sufficiente seguire una certa sequenza di azioni:

  1. Robots.txt è un documento di testo ed è creato da qualsiasi editor di testo disponibile;
  2. L'estensione del file deve essere .txt;
  3. Il nome è robot obbligatorio;
  4. Per sito è consentito un solo file di questo tipo;
  5. Posizionato solo nella directory principale del sito;

È necessario utilizzare un normale editor di testo (blocco note in alternativa). Creiamo un documento .txt con il nome robots. Quindi salviamo e trasferiamo questo documento utilizzando un client FTP nella directory principale del sito. Questi sono i passaggi principali da seguire.

Esempi di Robots.txt standard per CMS popolari

Esempio Robots.txt per amiro.cms:

robots.txt per amiro.cms.

Un esempio di robots.txt per bitrix:

robots.txt per bitrix.

robots.txt per bitrix1.

Esempio Robots.txt per dle:

robots.txt per dle.

Esempio Drupal robots.txt:

robots.txt per drupal.

robots.txt per drupal1.

Esempio Robots.txt per hostcms:

robots.txt per hostcms.

Esempio Robots.txt per joomla3:

robots.txt per joomla3.

Esempio robots.txt per joomla:

robots.txt per joomla.

Esempio Robots.txt per modx evo:

robots.txt per modx evo.

Esempio Robots.txt per modx:

robots.txt per modx.

Esempio Robots.txt per netcat:

robots.txt per netcat.

Esempio Robots.txt per opencat:

robots.txt per opencat.

Esempio Robots.txt per typo3:

robots.txt per typo3.

Esempio Robots.txt per umi:

robots.txt per umi.

Esempio robots.txt per wordpress:

robots.txt per wordpress.

Ecco un esempio del file del mio sito CMS WordPress:

# robots.txt Agente utente: * Non consentire: /wp-json/ Non consentire: /wp-login.php Non consentire: /wp-register.php Non consentire: /xmlrpc.php Non consentire: /template.html Non consentire: /wp-admin Disallow: */trackback Disallow: */comments* Disallow: *comments_* Disallow: /search Disallow: /author/* Disallow: /users/ Disallow: /*?replytocom Disallow: /*?replytocom* Disallow: /comment-page * Non consentire: */tag/* Non consentire: /tag/* Non consentire: /?s=* Non consentire: /?s= Non consentire: */feed Non consentire: */rss Non consentire: */embed Non consentire: /?p= Non consentire: *.php Non consentire: /ads.txt Non consentire: */stylesheet Non consentire: */stylesheet* Consenti: /wp-content/uploads/ Consenti: /wp-includes Consenti: /wp-content Consenti: */uploads Consenti: /* /*.js Consenti: /*/*.css Consenti: /wp-*.png Consenti: /wp-*.jpg Consenti: /wp-*.jpeg Consenti: /wp-*.gif Consenti: /wp-admin /admin-ajax.php Agente utente: Yandex Non consentire: /wp-json/ Non consentire: /wp-login.php Non consentire: /wp-register.php Non consentire: /xmlrpc.php Non consentire: /template.html Non consentire: /wp -admin Disallow: */trackback Disallow: */comments* Disallow: *comments_* Disallow: /search Disallow: /author/* Disallow: /users/ Disallow: /*?replytocom Disallow: /*?replytocom* Disallow: /comment -page* Non consentire: */tag/* Non consentire: /tag/* Non consentire: /?s=* Non consentire: /?s= Non consentire: */feed Non consentire: */rss Non consentire: */embed Non consentire: /?s= Non consentire: /?p= Non consentire: *.php Non consentire: /ads.txt Non consentire: */amp Non consentire: */amp? Non consentire: */amp/ Non consentire: */stylesheet Non consentire: */stylesheet* Consenti: /wp-content/uploads/ Consenti: /wp-includes Consenti: /wp-content Consenti: */uploads Consenti: /*/*. js Consenti: /*/*.css Consenti: /wp-*.png Consenti: /wp-*.jpg Consenti: /wp-*.jpeg Consenti: /wp-*.gif Consenti: /wp-admin/admin- ajax.php User-agent: Mail.Ru Non consentire: /wp-json/ Non consentire: /wp-login.php Non consentire: /wp-register.php Non consentire: /xmlrpc.php Non consentire: /template.html Non consentire: /wp- admin Disallow: */trackback Disallow: */comments* Disallow: *comments_* Disallow: /search Disallow: /author/* Disallow: /users/ Disallow: /*?replytocom Disallow: /*?replytocom* Disallow: /comment- pagina* Non consentire: */tag/* Non consentire: /tag/* Non consentire: /?s=* Non consentire: /?s= Non consentire: */feed Non consentire: */rss Non consentire: */embed Non consentire: /?s= Non consentire : /?p= Non consentire: *.php Non consentire: /ads.txt Non consentire: */stylesheet Non consentire: */stylesheet* Consenti: /wp-content/uploads/ Consenti: /wp-includes Consenti: /wp-content Consenti: */uploads Consenti: /*/*.js Consenti: /*/*.css Consenti: /wp-*.png Consenti: /wp-*.jpg Consenti: /wp-*.jpeg Consenti: /wp-*. gif Consenti: /wp-admin/admin-ajax.php Agente utente: ia_archiver Non consentito: /wp-json/ Non consentito: /wp-login.php Non consentito: /wp-register.php Non consentito: /xmlrpc.php Non consentito: / template.html Disallow: /wp-admin Disallow: */trackback Disallow: */comments* Disallow: *comments_* Disallow: /search Disallow: /author/* Disallow: /users/ Disallow: /*?replytocom Disallow: /* ?replytocom* Non consentire: /comment-page* Non consentire: */tag/* Non consentire: /tag/* Non consentire: /?s=* Non consentire: /?s= Non consentire: */feed Non consentire: */rss Non consentire: */ embed Non consentire: /?s= Non consentire: /?p= Non consentire: *.php Non consentire: /ads.txt Non consentire: */stylesheet Non consentire: */stylesheet* Consentire: */?amp Consentire: /wp-content/uploads/ Consenti: /wp-includes Consenti: /wp-content Consenti: */uploads Consenti: /*/*.js Consenti: /*/*.css Consenti: /wp-*.png Consenti: /wp-*.jpg Consenti : /wp-*.jpeg Consenti: /wp-*.gif Consenti: /wp-admin/admin-ajax.php Agente utente: SputnikBot Non consentito: /wp-json/ Non consentito: /wp-login.php Non consentito: / wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: */trackback Disallow: */comments* Disallow: *comments_* Disallow: /search Disallow: /author/* Disallow : /users/ Non consentire: /*?replytocom Non consentire: /*?replytocom* Non consentire: /comment-page* Non consentire: */tag/* Non consentire: /tag/* Non consentire: /?s=* Non consentire: /?s= Non consentire: */feed Non consentire: */rss Non consentire: */embed Non consentire: /?s= Non consentire: /?p= Non consentire: *.php Non consentire: /ads.txt Non consentire: */stylesheet Non consentire: */stylesheet* Consenti : */?amp Consenti: /wp-content/uploads/ Consenti: /wp-includes Consenti: /wp-content Consenti: */uploads Consenti: /*/*.js Consenti: /*/*.css Consenti: / wp-*.png Consenti: /wp-*.jpg Consenti: /wp-*.jpeg Consenti: /wp-*.gif Consenti: /wp-admin/admin-ajax.php Agente utente: Bingbot Non consentito: /wp -json/ Non consentire: /wp-login.php Non consentire: /wp-register.php Non consentire: /xmlrpc.php Non consentire: /template.html Non consentire: /wp-admin Non consentire: */trackback Non consentire: */comments* Non consentire: *comments_* Non consentire: /search Non consentire: /author/* Non consentire: /users/ Non consentire: /*?replytocom Non consentire: /*?replytocom* Non consentire: /comment-page* Non consentire: */tag/* Non consentire: /tag/ * Non consentire: /?s=* Non consentire: /?s= Non consentire: */feed Non consentire: */rss Non consentire: */embed Non consentire: /?s= Non consentire: /?p= Non consentire: *.php Non consentire: /ads .txt Non consentire: */stylesheet Non consentire: */stylesheet* Consenti: */?amp Consenti: /wp-content/uploads/ Consenti: /wp-includes Consenti: /wp-content Consenti: */uploads Consenti: /*/ *.js Consenti: /*/*.css Consenti: /wp-*.png Consenti: /wp-*.jpg Consenti: /wp-*.jpeg Consenti: /wp-*.gif Consenti: /wp-admin/ admin-ajax.php Agente utente: Googlebot Non consentire: /wp-json/ Non consentire: /wp-login.php Non consentire: /wp-register.php Non consentire: /xmlrpc.php Non consentire: /template.html Non consentire: /wp- admin Disallow: */trackback Disallow: */comments* Disallow: *comments_* Disallow: /search Disallow: /author/* Disallow: /users/ Disallow: /*?replytocom Disallow: /*?replytocom* Disallow: /comment- pagina* Non consentire: */tag/* Non consentire: /tag/* Non consentire: /?s=* Non consentire: /?s= Non consentire: */feed Non consentire: */rss Non consentire: */embed Non consentire: /?s= Non consentire : /?p= Non consentire: *.php Non consentire: */stylesheet Non consentire: */stylesheet* Consentire: */?amp Consentire: */*/?amp Consentire: */tag/?amp Consentire: */page/? amp Consenti: /wp-content/uploads/ Consenti: /wp-includes Consenti: /wp-content Consenti: */uploads Consenti: /*/*.js Consenti: /*/*.css Consenti: /wp-*. png Consenti: /wp-*.jpg Consenti: /wp-*.jpeg Consenti: /wp-*.gif Consenti: /wp-admin/admin-ajax.php Agente utente: Googlebot-Image Consenti: /wp-content /uploads/ Agente utente: Yandex-Images Consenti: /wp-content/uploads/ Agente utente: Mail.Ru-Images Consenti: /wp-content/uploads/ Agente utente: ia_archiver-Images Consenti: /wp-content /uploads/ Agente utente: Bingbot-Images Consenti: /wp-content/uploads/ Host: https://nicola.top Mappa del sito: https://nicola.top/sitemap_index.xml Mappa del sito: https://nicola.top /?feed=googleimagesitemap

Spero che ti sarà utile. Si prega di applicare le regole in base alle considerazioni del proprio sito. Ogni risorsa dovrebbe avere il proprio approccio.

Al momento il mio file è abbreviato in generic. Puoi conoscerlo andando su nicola.top/robots.txt

Come creare un file Robots.txt utilizzando i servizi online

Questo metodo è il più semplice e veloce, adatto a chi ha paura di creare Robots.txt da solo o è semplicemente pigro. Ci sono molti servizi che offrono la creazione di questo file. Ma vale la pena considerare alcune sfumature riguardo a questo metodo. Ad esempio:

  • È necessario tenere conto in anticipo di cosa esattamente si desidera vietare o consentire all'agente.
  • È richiesta la verifica obbligatoria del file finito prima di caricarlo sul sito.
  • Fai attenzione, perché un file online Robots.txt creato in modo errato porterà a una situazione deplorevole. Pertanto, le pagine tecniche e di altro tipo del sito, che a priori non dovrebbero essere presenti, possono entrare nella ricerca.
  • Tuttavia, è meglio dedicare tempo e fatica alla creazione di un robot personalizzato corretto. In questo modo, puoi ricreare una struttura ben fondata di divieti e permessi appropriati per il tuo sito.

Modifica e correzione della sintassi del file Robots.txt

Dopo aver creato Robots.txt con successo, puoi facilmente modificarlo e cambiarlo come preferisci. In questo caso, dovrebbero essere prese in considerazione alcune regole e una sintassi competente. Nel tempo, cambierai ripetutamente questo file. Ma non dimenticare, dopo la modifica, dovrai caricare questo file sul sito. Pertanto, aggiornando il suo contenuto per i robot di ricerca.

Scrivere Robots.txt è molto semplice, la ragione di ciò è la struttura piuttosto semplice del design di questo file. La cosa principale quando si scrivono regole è usare una sintassi rigorosamente definita. Queste regole sono seguite volontariamente da quasi tutti i principali PS. Ecco un elenco di alcune regole per evitare la maggior parte degli errori nel file Robots.txt:

  1. Non ci deve essere più di una specifica direttiva su una riga;
  2. Ogni regola inizia su una nuova riga;
  3. Uno spazio all'inizio di una riga è stato rimosso;
  4. I commenti sono consentiti dopo il carattere #;
  5. I robot vuoti conteranno come autorizzazione completa all'indicizzazione;
  6. Il nome di questo file è possibile solo nel formato valido “robots”;
  7. La dimensione del file non deve superare i 32kb;
  8. È consentita una sola regola nelle direttive Allow e Disallow. Un valore vuoto dopo Consenti: o Non consentire: equivale a un'autorizzazione completa;
  9. Tutte le regole devono essere scritte in minuscolo;
  10. Il file deve essere sempre disponibile;
  11. Una riga vuota dopo le regole specificate indica la fine completa delle regole della direttiva User-agent;
  12. È auspicabile prescrivere le regole per ogni PS separatamente;
  13. Se la regola è una directory del sito, assicurati di inserire una barra (/) prima dell'inizio;
  14. Non ci dovrebbero essere virgolette in una stringa o in una regola;
  15. È necessario considerare una rigida struttura di regole che non corrisponda più al tuo sito;
  16. Robots.txt dovrebbe essere minimalista e trasmettere chiaramente il significato previsto;

Configurazione corretta del file Robots.txt - ortografia corretta dei comandi

Per ottenere un risultato positivo quando si utilizzano i robot, è necessario configurarlo correttamente. Tutti i comandi principali di questo file con le istruzioni sono seguiti dai più grandi motori di ricerca Google e Yandex. Altri PS potrebbero ignorare alcune istruzioni. Come rendere robots.txt più reattivo alla maggior parte dei motori di ricerca? Qui è necessario comprendere le regole di base per lavorare con questo file, che sono state discusse sopra.
Considera i comandi di base:

  • Agente utente: * - le istruzioni si applicheranno a tutti i robot ps. È anche possibile specificare alcuni motori di ricerca separatamente, ad esempio: User-Agent: GoogleBot e User-Agent: YandexBot. Pertanto, le regole per PS importanti sono designate correttamente.
  • Non consentire: - proibisce completamente la scansione e l'indicizzazione (di una pagina, directory o file).
  • permettere: - consente completamente la scansione e l'indicizzazione (di una pagina, directory o file).
  • Parametro pulito: - necessario per escludere le pagine del sito con contenuto dinamico. Grazie a questa regola, puoi eliminare i contenuti duplicati sul sito.
  • Ritardo scansione: - la regola specifica l'intervallo di tempo entro il quale i p-bot scaricano i documenti dal sito. Consente di ridurre significativamente il carico sul server. Ad esempio: "Crawl-delay: 5" dirà a n-robot che è possibile scaricare documenti dal sito non più di una volta ogni 5 secondi.
  • Host: tuo_sito.ru - Responsabile del mirror principale del sito. In questa direttiva è necessario specificare la versione prioritaria del sito.
  • Mappa del sito: http://your_site.ru/sitemap.xml - come puoi immaginare, questa direttiva informa il p-bot della presenza di una Sitemap sul sito.
  • # - ti permette di lasciare commenti. Puoi commentare solo dopo il cancelletto. Può essere collocato sia su una nuova riga che come continuazione della direttiva. Tutte queste opzioni verranno ignorate dai bot durante il passaggio delle istruzioni.

Come controllare Robots.txt utilizzando Google o Yandex

Stranamente, per controllare questo file sono necessari solo i pannelli webmaster di Google o Yandex. Il che a sua volta rende molto più facile trovare gli errori.

  • Google Webmaster: seleziona "Scansione" nel menu a sinistra e quindi la scheda "Strumento di controllo file Robots.txt". Quindi, nella riga inferiore della finestra che appare, aggiungi il nome del file. Quindi fai clic su "Controlla" e guarda come il bot di Google vede i tuoi robot.
  • Yandex Webmaster: nel menu a sinistra, seleziona "Strumenti" e "Analisi di Robots.txt". Successivamente, nella finestra che appare, fai semplicemente clic sul pulsante "Verifica".

Vale la pena notare che ci sono molti validatori online per controllare questo file. Ho parlato di quelli più convenienti che sono sempre a portata di mano.

Conclusione

È impossibile scrivere un robot perfetto per tutti i siti. La ragione di ciò sono i siti stessi, alcuni dei quali sono realizzati a mano e altri si trovano su diversi CMS. Assolutamente tutti i siti hanno una struttura di directory diversa e altre cose.

Pertanto, ogni webmaster è semplicemente obbligato a creare il proprio insieme unico di regole per i p-bot. Tale file soddisferà le tue priorità e non ti consentirà di entrare nella ricerca di informazioni riservate. Grazie a ciò, l'indice conterrà contenuti di alta qualità senza spazzatura inutile. Ti consiglio di impostare anche i reindirizzamenti necessari sul tuo sito. Ciò eviterà duplicati, trasferirà il peso alle pagine necessarie.

Leggendo questo articolo:

Grazie per aver letto: AIUTO SEO | NICOLA.TOP

Quanto è stato utile questo post?

Clicca su una stella per valutarla!

Voto medio 5 / 5. Conteggio dei voti: 219

Nessun voto finora! Sii il primo a valutare questo post.

Potrebbero interessarti anche...

5 risposte

  1. Alycia ha detto:

    Mi diverto, perché ho trovato esattamente quello che stavo cercando.
    Hai concluso la mia lunga caccia di quattro giorni! Dio ti benedica uomo. Vi auguro una buona giornata.
    Bye

  2. Dessie ha detto:

    Ahaa, ho letto il suo piacevole dialogo riguardante questo post in questo posto su questo blog
    tutto questo, quindi ora sto commentando anche in questo posto.

  3. Nicolas ha detto:

    Se desideri aumentare la tua familiarità, continua a visitare questo sito ed essere aggiornato con le ultime novità
    aggiornamento pubblicato qui.

  4. Ana ha detto:

    Ciao, mi fa piacere leggere tutto il tuo articolo. Volevo scrivere un piccolo commento per sostenerti.

  5. Luigi ha detto:

    Ciao sito molto bello!! Cavolo.. Eccellente.. Meraviglioso..
    Aggiungerò il tuo sito web ai segnalibri e prenderò i feed aggiuntivi?
    Sono felice di trovare molte informazioni utili qui all'interno del post, dobbiamo sviluppare più strategie a questo proposito,
    Grazie per aver condiviso. . . . . .

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

due × due =