SEO Lexikon: Die robots.txt und Suchmaschinenoptimierung

Die robots.txt ist ein wichtiges Tool für Webmaster und Online Marketer, um Suchmaschinen zu steuern und von bestimmten Seiten auszuschließen. In diesem Wiki-Artikel gehen wir auf die robots.txt ein: Was bedeutet die Datei, wie richte ich eine robots.txt ein und was hat sie für Auswirkungen auf Suchmaschinen?

Wenn nicht anders angegeben nehmen wir in diesem Artikel die Suchmaschine Google und seinen Googlebot für Beispiele heran.

Was ist die robots.txt?

Die robots.txt (ausgesprochen: „Robots Text„) ist eine Datei im Hauptverzeichnis einer Website. Obwohl sie kein offizieller internationaler Standard ist (wie etwa HTML 5), hat sich die Datei und ihre Inhalte zu einem Faktisch-Standard entwickelt.

Der Sinn und Zweck einer robots.txt ist es, Crawler und Bots Anweisungen zu geben, wie sie sich auf einer Website zu verhalten haben. Insbesondere der Ausschluss von Bots aus verschiedenen Verzeichnissen und Dateien wird in der robots.txt geregelt. So werden beispielsweise Suchmaschinen wie Google darauf hingewiesen, dass sie bestimmte Websites und andere Inhalte nicht besuchen dürfen oder sollen.

Wozu brauche ich eine robots.txt?

Wie bereits erwähnt ist die robots.txt ein wichtiges Mittel, um Suchmaschinen davon abzuhalten, bestimmte Inhalte aufzurufen. Somit blockieren wir Suchmaschinen wie Google beim Versuch, kritische Seiten aufzurufen. Dazu zählen:

  • Administrative Verwaltung (Backend),
  • Seiten mit Buchungsstrecken und Kaufvorgängen,
  • temporäre Verzeichnisse und Dateien,
  • Anmelde- und Kontaktformulare,
  • Suchergebnisseiten
  • sowie jede Art von Website oder Dateien, die wir explizit nicht im Index von Google und Co. sehen wollen.

Wie richte ich eine robots.txt ein?

Die Einrichtung einer robots.txt ist kinderleicht.

  • Schritt 1: Öffne einen Texteditor.
    • TIPP: Wir empfehlen das Programm → Notepad++, aber auch der normale Editor (Notepad) unter Windows funktioniert dafür prima.
    • HINWEIS: Microsoft Word und andere Programme zum Erstellen von Dokumenten (etwa auch Open Office Writer) eignen sich nicht für die Erstellung einer robots.txt-Datei!
  • Schritt 2: Füge entsprechende Befehle ein, auf die wir gleich unter → Tabelle: Befehle für die robots.txt eingehen
  • Schritt 3: Speichere die Datei unter dem Namen robots.txt ab.
  • Schritt 4: Lade die robots.txt ins Hauptverzeichnis deiner Website hoch.
    • Beispiel: https://nextlevelseo.de/robots.txt
    • HINWEIS: Die robots.txt wird in Unterordnern nicht berücksichtigt. Das hochladen einer robots.txt-Datei macht hier keinen Sinn. (Beispiel:

robots.txt Generatoren im Internet

Um eine robots.txt für Google und andere Suchmaschinen bequem und schnell zu erstellen, empfehlen wir hier zwei Web-Generatoren, mit der man sich eine robots.txt-Datei ganz einfach erstellen kann:

Tabelle: Befehle für die robots.txt

Kommen wir nun zu den Befehlen, die wir in der robots.txt hinterlegen können. Sie ist nach einem gleichbleibenden Schema aufgebaut. Achte deshalb auf den exakten Schreibstil (Groß- und Kleinschreibung) und darauf, dass pro Zeile ein Befehl hinterlegt werden darf. Unterhalb der Tabelle findest du Beispiele, wie das Ganze am Ende aussieht.

SMARTPHONE-HINWEIS Dir werden momentan nur die wichtigsten Beschreibungen angezeigt. Wenn sie dich verwirren, versuche die Seite auf deinem PC zu öffnen. Dort erhältst du eine tabellarische Übersicht, die einfacher verständlich ist. 😉

Befehl Beschreibung
# Die Raute symbolisiert eine Notiz. Für bedeutet das, dass sie in dieser Zeile ab dem Rautezeichen alles ignorieren. So lassen sich eigene Notizen an die Befehle heften, um bei Änderungen schneller die passenden Stellen zu finden.Ist eine Raute am Anfang der Zeile hinterlegt, wird die gesamte Zeile ignoriert. Beispiel:# Dies ist eine Notiz.
* Das Sternsymbol (bzw. Multiplikationszeichen) ist eine Wildcard.Wildcard bedeutet, dass sich anstelle des Sternsymbols irgendetwas an seiner Position befinden kann. Also ein beliebiger Teil der URL.
User-agent: * Beginnt eine Zeile mit User-agent: *, so bedeutet das, dass alle Bots ab dieser Zeile die darunter stehenden Befehle berücksichtigen sollen.Das Stern-Symbol (bzw. Multiplikationszeichen) stellt als Wildcard alle Bots dar, sodass alle Bots angesprochen werden.
User-agent: Googlebot Beginnnt eine Zeile mit User-agent: Googlebot, so wird nur der Google Bot angesprochen. Nur er soll die folgenden Zeilen berücksichtigen, bis ein neuer User-agent: aufgeführt wird – bis eine neue Zeile auftaucht, die mit User-agent: beginnt. Andere Crawler und Bots berücksichtigen die darin befindlichen Befehle nicht.Anstelle von Googlebot kann man auch andere Bots gezielt befehligen:

  • User-agent: Googlebot-Image
  • User-agent: Bingbot
  • User-agent: Yahoo! Slurp
  • User-agent: YandexBot

Eine Liste von Webcrawlern und Bots findest du hier: useragentstring.com

 Disallow: / Beginnt eine Zeile mit Disallow: bedeutet das, dass die zuvor angesprochenen Bots und Crawler einen dazu angefügten Pfad oder URL-Bereich nicht betreten dürfen. Es ist sozusagen ein Stopp-Schild für die jeweils angesprochenen Bots.HINWEIS: Ist keine Wildcard (Sternsymbol/Multiplikationszeichen) eingebaut, so gilt immer:

  • Es ist für Bots verboten die Seiten abzurufen, die (in diesem Beispiel) mit / beginnen.
  • Es bedeutet NICHT, dass es Bots verboten ist die Seite abzurufen, die exakt gleich dem sind, was hinterlegt ist. Dazu muss man den nachfolgenden Befehl mit Dollarzeichen verwenden:
Disallow: /index.php$ Das Dollarzeichen am Ende eines Pfades oder einer Datei sagt, dass die Berücksichtigung seitens der Bots bei dem Dollarzeichen endet. In diesem Fall wird die index.php im Hauptverzeichnis nicht berücksichtigt.Steht in der URL hinter index.php noch etwas – wie beispielsweise bei der URL /index.php?id=123 – dann berücksichtigen die Bots diese Seite wieder.Funktioniert nur mit Googlebot, Yahoo! Slurp, msnbot
Disallow: /temp/ In diesem Fall ist es den jeweiligen Bots verboten, den Ordner /temp/ und alle darin befindlichen Dateien und Inhalte zu crawlen.Also: Ordnerstrukturen können von Zugriffen durch Suchmaschinen gesperrt werden.
Disallow: /admin.php Sperrt für alle Bots und Crawler die Datei admin.php und alle Unterseiten, die die Seite generiert.Beispiel:
Disallow: /*.doc Dieser Befehl sagt aus, dass es Bots und Crawler nicht gestattet ist, Dateien vom Typ .DOC zu lesen.Weitere Beispiele:

  • Disallow: /*.pdf
  • Disallow: /*.jpg
  • Disallow: /*.mp4
  • Disallow: /*.xls
Disallow: /
Allow: /website/
Bots prüfen die robots.txt in der Regel von oben nach unten. Wurde vorher ein Bereich gesperrt (wie die komplette Website), aber weiter unten ist per Allow: ein Ordner freigegeben, so werden die Bots und Crawler den Ordner /website/ prüfen und in den Index aufnehmen.Funktioniert mit: Googlebot, Ask.com, Yahoo! Slurp, msnbot (andere Bots ignorieren möglicherweise die Reihenfolge!)
Sitemap: <URL> In der robots.txt lässt sich auch die XML Sitemap hinterlegen. So wissen die Bots und Crawler gleich bescheid und werden die XML Sitemap überprüfen, um deren Inhalte schneller in den Index aufzunehmen. Beispiel:

  • Sitemap:
 Crawl-delay: <SEKUNDEN> Speziell für Yahoo! und MSNbot:
Deren Bots kann man anweisen, erst nach bestimmten Zeitabständen eine neue Seite zu crawlen. Beispiel:

  • Crawl-delay: 300 # 300 Sekunden = alle 5 Minuten

Beispiele einer robots.txt-Datei

Zunächst eine robots.txt-Datei ohne Erklärungen und anschließend eine mit Erklärungen, die als Notizen markiert ist.

SMARTPHONE-HINWEIS: Drehe dein Smartphone ins Querformat, um die Datstellung der robots.txt-Dateien ohne Fehler zu sehen. Sollte dieser Hinweis weiterhin bestehen bleiben, schaue dir die Seite auf deinem PC mit voller Breite nochmal an.

User-agent: *
Sitemap:
Disallow: /temp/
#

User-agent: Googlebot
Disallow: /uploads/
Allow: /uploads/images/
#
User-agent: discobot
Disallow: /*list.
#

User-agent: msnbot
Disallow: /.js$

Und jetzt die gleiche robots.txt mit Notizen zur Erklärung. Die Notizen können ebenfalls in der robots.txt enthalten sein, da die Bots und Crawler die Notizen ignorieren.

# robots.txt für eine Website
#
# Die Raute zu Beginn der Zeile
# sagt, dass es sich um einen
# Kommentar handelt und Bots
# diesen Bereich nicht
# berücksichtigen sollen.
#

User-agent: *
# alle Bots
#

Sitemap:
# Hinterlegt die Sitemap für
# Crawler und Bots
#

Disallow: /temp/
# der Ordner /temp/ wird für alle
# Bots gesperrt
#

User-agent: Googlebot
Disallow: /uploads/
# Googlebot darf nicht in den
# Ordner /uploads/

Allow: /uploads/images/
# Googlebot darf trotzdem in
# den Ordner /uploads/images/
#
User-agent: discobot
Disallow: /*list.
# Der discobot darf keine Dateien
# und Seiten öffnen, die list.
# in der URL beinhalten. Die
# Wildcard (*-Zeichen) sagt,
# dass es egal ist, was sich vor
# list. befindet.
#

User-agent: msnbot
Disallow: /.js$
# Der MSN darf Javascripte
# nicht öffnen.
 Allerdings nur,
# wenn die Dateien mit .js
 enden.
# Befindet sich dahinter noch
# etwas, 
wie etwa bei
# skript.js?date=20141220, dann

# wird der MSN Bot die Datei
# durchsuchen.

#
# ENDE

Wie reagieren Suchmaschinen auf gesperrte Inhalte?

Stop Sign

Stop Sign. Photo: Michelle Kinsey Bruns (CC BY 2.0)

Für Google und andere Suchmaschinen sowie jeden angesprochenen Bot und Crawler sind gesperrte Inhalte wie ein Stoppschild. Sie dürfen diese Seiten nicht besuchen und werden das in der Regel auch nicht tun. Somit werden Seiten, die per robots.txt gesperrt sind, nicht mehr von Googlebot und anderen Crawlern und Bots aufgerufen.

Allerdings ist die robots.txt eher als besonders wichtige Notiz für jede Art von Robot und Crawler zu verstehen. Während sich große Anbieter wie Google an die Verkehrsregeln (das sinnbildliche Stoppschild) halten, tun dies andere kleine Rowdys nicht automatisch.

Außerdem ist das Sperren von Inhalten keine Garantie für die Nicht-Aufnahme in den Index von Suchmaschinen. Wird eine Seite intern verlinkt, übernehmen Suchmaschinen gerne den Verlinkungstext als Suchergebnis-Überschrift. Da die Seiten aber nicht gecrawlt werden, irgnorieren Suchmaschinen Inhalte wie einen Noindex. Mehr dazu findest du im Artikel → SEO Test: Liest Google per robots.txt gesperrte Inhalte aus?

Trotzdem halten sich die wichtigen und großen Suchmaschinen daran.

SEO: Was, wenn die Inhalte bereits im Google Index sind?

Sind Seiten in den Google Index geraten, die man lieber nicht im Index haben möchte, sollte man die Dateien und Verzeichnisse nicht sofort per robots.txt aussperren. Denn der Ausschluss von Bots und Crawler bedeutet nicht, dass Suchmaschinen die Inhalte automatisch aus dem Index entfernen.

Besser ist dann folgende Vorgehensweise:

  • 1. Schritt: Die gewünschten Seiten auf Noindex setzen.
  • 2. Schritt: Die gewünschten Seiten über die Google Webmastertools → Crawling → Abruf wie durch Google erneut crawlen lassen.
    • Optionaler Schritt: Das gleiche über die Bing Webmastertools machen
  • 3. Schritt: URLs in den Google Webmastertools entfernen lassen: Unter Google-Index → URLs entfernen
  • 4. Schritt: Abwarten, bis die URLs tatsächlich entfernt wurden
  • 5. Schritt: Die Pfade und Dateien per robots.txt blockieren

Was passiert, wenn ich die Seiten nur per robots.txt ausschließe?

Das Suchergebnis kann weiterhin auftauchen. Allerdings wird keine Beschreibung mehr ausgegeben, sondern die Notiz:

Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar. Weitere Informationen

Google Suchergebnis wurde per robots.txt blockiert

Google Suchergebnis wurde per robots.txt blockiert

Ist die robots.txt eine Garantie darauf, dass Seiten nicht in den Google Index geraten?

Nein. Bots und Crawler müssen sich nicht an die Anweisungen in der robots.txt halten. Sie sind eben wie ein Stoppschild, an das sich die meisten Bots und Crawler halten. Eine wirkliche Absperrung ist es allerdings nicht.

Dennoch: Der Großteil der großen Internetdienste hält sich an diese Internet-StVO.

Google Webmastertools: Geblockte Inhalte prüfen

Um zu überprüfen, ob Google die robots.txt richtig auswertet und die in der hinterlegten robots.txt-Datei richtig einschätzt, kann man die Google Webmastertools zu Rate ziehen.

Google Webmastertools: robots.txt-Tester

Google Webmastertools: robots.txt-Tester

Unter Crawling → robots.txt-Tester befindet sich die robots.txt, wie sie Google zuletzt überprüft hat. Wenn man frische Änderungen vornehmen möchte oder bereits vorgenommen hat, kann man das Feld durch die neuen Anpassungen ergänzen.

Anschließend kann man URLs mit verschiedenen Bots in den Google Webmastertools testen lassen.

  • Wird die URL blockiert, wird auch angezeigt, durch welche Zeile sie blockiert wird.
  • Wird eine URL nicht blockiert, wird der „Testen“-Button zu einem grünen „Zugelassen“-Button.

Weblinks

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.