So erstellen Sie eine robots.txt-Datei für eine Website - richtige Roboter

drucken · Время на чтение: 11мин · von · Veröffentlicht · Aktualisiert

reproduzierenArtikel anhören

So erstellen Sie eine robots.txt-Datei.

Detaillierte Anleitung auf wie man eine robots.txt-Datei erstellt für Website. Robots.txt ist einer der notwendigsten Aspekte einer vollwertigen Suchmaschinenoptimierung der Website und Ihre Website-Sicherheit. Indem Sie die Bedingungen für die ordnungsgemäße Verwendung dieser Datei beachten, können Sie einen gewissen positiven Effekt auf der Website erzielen.

Für die meisten PSs ist es möglich, eine Vielzahl von Anweisungen zu spezifizieren. Die zeigen dem Suchbot die notwendigen Einschränkungen oder Berechtigungen an Scannen von Seiten, Verzeichnissen oder Abschnitten der Website.

Robots.txt-Datei - Grundlegende Definition

Robots.txt - hat bestimmte Ausnahmestandards für Suchagenten (Bots), die im Januar 1944 verabschiedet wurden. Die Datei ist so etwas wie eine Datei .htaccess (es schreibt auch die Regeln vor). Die Regeln dieser Datei werden von den gängigsten PS freiwillig befolgt. Die Datei kann aus einer oder mehreren Regeln bestehen, die jeweils den Zugriff des Crawlers auf bestimmte Pfade auf der Website blockieren oder zulassen.

Standardmäßig befindet sich diese Datei nicht auf der Website, was allen PSs die volle Berechtigung gibt, den gesamten Inhalt der Website zu indizieren. Eine solche Erlaubnis kann dazu führen, dass wichtige technische Seiten der Website in den Suchmaschinenindex aufgenommen werden, die dort nicht enthalten sein sollten.

Warum brauchen wir Robots.txt auf der Website – seine Auswirkung auf die Werbung in Suchmaschinen

Robots.txt ist der wichtigste Faktor bei der Suchmaschinenoptimierung einer Website. Dank eines richtig geschriebenen Regelwerks für Suchbots können Sie eine gewisse Steigerung des Rankings einer Website bei der Suche erreichen. Was geben diese Anweisungen:

  1. Gesperrt für die Indizierung bestimmter Seiten, Abschnitte, Verzeichnisse der Website;
  2. Ausschluss von Seiten, die keinen nützlichen Inhalt enthalten;
  3. Eliminierung doppelter Seiten und mehr.

Für die meisten Sites sind solche Indizierungsbeschränkungen einfach notwendig; kleine ganzseitige Sites sind optional. Allerdings müssen jeder Site bestimmte Anweisungen hinzugefügt werden. Zum Beispiel Indizierungsverbote:

  1. Registrierungsseiten, Admin-Login, Passwortwiederherstellung;
  2. Technische Kataloge;
  3. RSS - Site-Feeds;
  4. Replytocom und mehr.

So erstellen Sie selbst eine Robors.txt-Datei plus Beispiele

Schwierigkeiten beim Erstellen einer Robots.txt-Datei können auch für Anfänger nicht auftreten. Es reicht aus, einer bestimmten Abfolge von Aktionen zu folgen:

  1. Robots.txt ist ein Textdokument und wird von jedem verfügbaren Texteditor erstellt;
  2. Die Dateierweiterung muss .txt sein;
  3. Der Name ist obligatorisch robots;
  4. Pro Site ist nur eine solche Datei erlaubt;
  5. Wird nur im Stammverzeichnis der Site platziert;

Sie müssen einen gewöhnlichen Texteditor (alternativ Notepad) verwenden. Wir erstellen ein .txt-Dokument mit dem Namen robots. Dann speichern und übertragen wir dieses Dokument mit einem FTP-Client in das Stammverzeichnis der Site. Dies sind die wichtigsten Schritte, die Sie befolgen müssen.

Beispiele für Standard-Robots.txt für beliebte CMS

Robots.txt-Beispiel für amiro.cms:

robots.txt für amiro.cms.

Ein Beispiel für robots.txt für Bitrix:

robots.txt für bitrix.

robots.txt für bitrix1.

Robots.txt-Beispiel für dle:

robots.txt für dle.

Beispiel für eine robots.txt-Datei von Drupal:

robots.txt für drupal.

robots.txt für drupal1.

Robots.txt-Beispiel für hostcms:

robots.txt für hostcms.

Robots.txt-Beispiel für joomla3:

robots.txt für Joomla3.

Beispiel robots.txt für Joomla:

robots.txt für Joomla.

Robots.txt-Beispiel für modx evo:

robots.txt für modx evo.

Robots.txt-Beispiel für modx:

robots.txt für modx.

Robots.txt-Beispiel für netcat:

robots.txt für netcat.

Robots.txt-Beispiel für Opencat:

robots.txt für opencat.

Robots.txt-Beispiel für Typo3:

robots.txt für typo3.

Robots.txt-Beispiel für umi:

robots.txt für umi.

Beispiel robots.txt für WordPress:

robots.txt für WordPress.

Hier ist ein Beispiel meiner WordPress-CMS-Site-Datei:

# robots.txt
User-Agent: *
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */amp
Disallow: */amp?
Disallow: */amp/
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Mail.Ru
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: ia_archiver
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: SputnikBot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Bingbot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: /ads.txt
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: */trackback
Disallow: */comments*
Disallow: *comments_*
Disallow: /search
Disallow: /author/*
Disallow: /users/ 
Disallow: /*?replytocom
Disallow: /*?replytocom*
Disallow: /comment-page*
Disallow: */tag/*
Disallow: /tag/*
Disallow: /?s=*
Disallow: /?s=
Disallow: */feed
Disallow: */rss 
Disallow: */embed 
Disallow: /?s=
Disallow: /?p=
Disallow: *.php
Disallow: */stylesheet
Disallow: */stylesheet*
Allow: */?amp
Allow: */*/?amp
Allow: */tag/?amp
Allow: */page/?amp
Allow: /wp-content/uploads/
Allow: /wp-includes
Allow: /wp-content
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: Yandex-Images
Allow: /wp-content/uploads/

User-agent: Mail.Ru-Images
Allow: /wp-content/uploads/

User-agent: ia_archiver-Images
Allow: /wp-content/uploads/

User-agent: Bingbot-Images
Allow: /wp-content/uploads/


Host: https://nicola.top
Sitemap: https://nicola.top/sitemap_index.xml
Sitemap: https://nicola.top/?feed=googleimagesitemap

Ich hoffe, dass es für Sie nützlich sein wird. Bitte wenden Sie die Regeln gemäß Ihren Standortüberlegungen an. Jede Ressource sollte ihren eigenen Ansatz haben.

Im Moment ist meine Datei auf generisch gekürzt. Sie können sich damit vertraut machen, indem Sie zu nicola.top/robots.txt gehen

So erstellen Sie eine Robots.txt-Datei mithilfe von Onlinediensten

Diese Methode ist die einfachste und schnellste und eignet sich für diejenigen, die Angst haben, Robots.txt selbst zu erstellen, oder einfach nur faul sind. Es gibt viele Dienste, die die Erstellung dieser Datei anbieten. Es lohnt sich jedoch, einige Nuancen in Bezug auf diese Methode zu berücksichtigen. Z.B:

  • Es ist im Vorfeld zu berücksichtigen, was genau Sie dem Agenten verbieten oder erlauben wollen.
  • Vor dem Hochladen auf die Website ist eine obligatorische Überprüfung der fertigen Datei erforderlich.
  • Seien Sie vorsichtig, denn eine falsch erstellte Online-Datei Robots.txt führt zu einer bedauerlichen Situation. So können technische und andere Seiten der Site, die a priori nicht vorhanden sein sollten, in die Suche gelangen.
  • Trotzdem ist es besser, Zeit und Mühe aufzuwenden, um einen korrekten benutzerdefinierten Roboter zu erstellen. Auf diese Weise können Sie eine fundierte Struktur von Verboten und Berechtigungen nachbauen, die für Ihre Website geeignet sind.

Bearbeiten und korrekte Syntax der Robots.txt-Datei

Nachdem Sie die Robots.txt erfolgreich erstellt haben, können Sie sie ganz einfach bearbeiten und ändern, wie Sie möchten. In diesem Fall sollten einige Regeln und eine kompetente Syntax berücksichtigt werden. Im Laufe der Zeit werden Sie diese Datei immer wieder ändern. Vergessen Sie jedoch nicht, dass Sie diese Datei nach der Bearbeitung auf die Website hochladen müssen. So wird der Inhalt für Suchroboter aktualisiert.

Das Schreiben von Robots.txt ist sehr einfach, der Grund dafür ist die recht einfache Struktur des Designs dieser Datei. Beim Schreiben von Regeln kommt es vor allem darauf an, eine streng definierte Syntax zu verwenden. Diese Regeln werden von fast allen großen PSs freiwillig befolgt. Hier ist eine Liste einiger Regeln, um die meisten Fehler in der Datei Robots.txt zu vermeiden:

  1. Es darf nicht mehr als eine angegebene Direktive in einer Zeile stehen;
  2. Jede Regel beginnt in einer neuen Zeile;
  3. Ein Leerzeichen am Anfang einer Zeile wurde entfernt;
  4. Kommentare sind nach dem Zeichen # erlaubt;
  5. Leere Roboter zählen als vollständige Indizierungserlaubnis;
  6. Der Name dieser Datei ist nur im gültigen Format „robots“ möglich;
  7. Die Dateigröße sollte 32kb nicht überschreiten;
  8. In den Allow- und Disallow-Direktiven ist nur eine Regel zulässig. Ein leerer Wert nach Allow: oder Disallow: entspricht vollständiger Berechtigung;
  9. Alle Regeln müssen in Kleinbuchstaben geschrieben werden;
  10. Die Datei muss immer verfügbar sein;
  11. Eine leere Zeile nach den angegebenen Regeln zeigt das vollständige Ende der Regeln der User-Agent-Direktive an;
  12. Es ist wünschenswert, die Regeln für jeden PS separat vorzuschreiben;
  13. Wenn es sich bei der Regel um ein Site-Verzeichnis handelt, stellen Sie sicher, dass Sie einen Schrägstrich (/) vor den Anfang setzen;
  14. Es sollten keine Anführungszeichen in einer Zeichenfolge oder in einer Regel vorhanden sein;
  15. Es ist notwendig, eine strenge Regelstruktur zu berücksichtigen, die nicht mehr zu Ihrer Website passt;
  16. Robots.txt sollte minimalistisch sein und die beabsichtigte Bedeutung klar vermitteln;

Korrekte Konfiguration der Robots.txt-Datei - korrekte Schreibweise der Befehle

Um bei der Verwendung von Robotern ein positives Ergebnis zu erzielen, müssen Sie sie richtig konfigurieren. Alle Hauptbefehle dieser Datei mit Anweisungen werden von den größten Suchmaschinen Google und Yandex befolgt. Andere PS können einige Anweisungen ignorieren. Wie kann man die robots.txt für die meisten Suchmaschinen reaktionsschneller machen? Hier müssen Sie die Grundregeln für die Arbeit mit dieser Datei verstehen, die oben besprochen wurden.
Betrachten Sie die grundlegenden Befehle:

  • User-Agent: * – Anweisungen gelten für absolut alle PS-Bots. Es ist auch möglich, bestimmte Suchmaschinen separat anzugeben, zum Beispiel: User-Agent: GoogleBot und User-Agent: YandexBot. Damit sind die Regeln für wichtige PSs richtig bezeichnet.
  • Nicht zulassen: - verbietet das Crawlen und Indizieren (einer Seite, eines Verzeichnisses oder von Dateien) vollständig.
  • ermöglichen: - ermöglicht das Crawlen und Indexieren (einer Seite, eines Verzeichnisses oder von Dateien) vollständig.
  • Parameter reinigen: - erforderlich, um Website-Seiten mit dynamischen Inhalten auszuschließen. Dank dieser Regel können Sie doppelte Inhalte auf der Website entfernen.
  • Crawl-Verzögerung: - Die Regel gibt das Zeitintervall an, in dem P-Bots Dokumente von der Site herunterladen. Ermöglicht es Ihnen, die Belastung des Servers erheblich zu reduzieren. Zum Beispiel: „Crawl-Delay: 5“ teilt dem n-Robot mit, dass das Herunterladen von Dokumenten von der Website höchstens einmal alle 5 Sekunden möglich ist.
  • Host: your_site.ru - Verantwortlich für den Hauptseiten-Mirror. In dieser Anweisung müssen Sie die Prioritätsversion der Site angeben.
  • Sitemap: http://your_site.ru/sitemap.xml - Wie Sie sich vorstellen können, teilt diese Direktive dem P-Bot mit über die Verfügbarkeit von Sitemap auf der Seite.
  • # - Ermöglicht das Hinterlassen von Kommentaren. Sie können nur nach dem Nummernzeichen kommentieren. Sie kann sowohl in eine neue Zeile als auch als Fortsetzung der Direktive gestellt werden. Alle diese Optionen werden von Bots bei der Weitergabe von Anweisungen ignoriert.

So überprüfen Sie Robots.txt mit Google oder Yandex

Seltsamerweise werden nur Google- oder Yandex-Webmaster-Panels benötigt, um diese Datei zu überprüfen. Was wiederum das Auffinden von Fehlern erheblich erleichtert.

  • Google Webmaster – Wählen Sie im linken Menü „Scanning“ und dann die Registerkarte „Robots.txt File Check Tool“. Fügen Sie dann in der unteren Zeile des angezeigten Fensters den Namen der Datei hinzu. Klicken Sie dann auf „Prüfen“ und sehen Sie, wie der Google-Bot Ihre Roboter sieht.
  • Yandex Webmaster - Wählen Sie im linken Menü "Tools" und "Analyse von Robots.txt". Klicken Sie danach im angezeigten Fenster einfach auf die Schaltfläche „Prüfen“.

Es ist erwähnenswert, dass es viele Online-Validatoren gibt, um diese Datei zu überprüfen. Ich habe über die günstigsten gesprochen, die immer zur Hand sind.

Fazit

Es ist unmöglich, einen perfekten Roboter für alle Seiten zu schreiben. Grund dafür sind die Seiten selbst, die teils per Hand erstellt werden und teils auf unterschiedlichen CMS liegen. Absolut alle Seiten haben eine andere Verzeichnisstruktur und andere Dinge.

Daher ist jeder Webmaster lediglich verpflichtet, sein eigenes einzigartiges Regelwerk für P-Bots zu erstellen. Eine solche Datei wird Ihren Prioritäten entsprechen und es Ihnen nicht ermöglichen, nach vertraulichen Informationen zu suchen. Dadurch enthält der Index qualitativ hochwertige Inhalte ohne unnötigen Müll. Ich empfehle Ihnen, auch die notwendigen Weiterleitungen auf Ihrer Website einzurichten. Dadurch werden Duplikate vermieden und das Gewicht auf die erforderlichen Seiten übertragen.

Vielen Dank für das Lesen von Nicola Top

Wie nützlich ist der Beitrag?

Zum Bewerten auf den Smiley klicken!

durchschnittliche Bewertung 5 / 5. Anzahl Bewertungen: 81

Es liegen noch keine Bewertungen vor. Bewerten Sie zuerst.

Das könnte dich auch interessieren …

Eine Antwort

  1. Alycia sagt:

    Ich genieße es, weil ich genau das gefunden habe, wonach ich früher gesucht habe.
    Du hast meine viertägige Jagd beendet! Gott segne dich, Mann. Ich wünsche ihnen einen wunderbaren Tag.
    Tschüss

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

12 − eins =