SEO-Test: Was Noindex in der robots.txt bewirkt

Funktioniert eine Noindex-Angabe in der robots.txt? In diesem Test finden wir heraus, welche Suchmaschine sich dran hält - und welche nicht.

Ende November habe ich einen neuen Test gestartet: Ich habe meine komplette nextlevelseo.de per robots.txt auf Noindex gestellt. Dabei sind interessante Ergebnisse herausgekommen, die ich gerne wieder mit euch teilen möchte.

Wie sieht ein Noindex in der robots.txt aus?

Die robots.txt ist im Normalfall dazu da, und Anweisungen zu geben, was sie untersuchen dürfen und was nicht. Im Normalfall schließt man beispielsweise Bots von bestimmten Verzeichnissen aus, so wie hier im Beispiel das Verzeichnis /test/ nicht untersucht und auch nicht gecrawlt werden darf:

Disallow: /test/

Das Disallow stellt dabei eine Art „Stoppschild“ dar. Kein und Crawler darf das Stoppschild überqueren.

Dieser Test sollte nun herausfinden, ob und wie Suchmaschinen auf einen Noindex in der robots.txt reagieren. Dazu habe ich meine komplette Domain nextlevelseo.de am 5. November 2016 mit folgender Zeile in der robots.txt markiert:

Noindex: /

Erwartung

Nimmt man eine normale Unterseite und hinterlegt dort einen robots-Meta-Tag, der mit einem Noindex befüllt ist, so sollte diese Unterseite entweder nicht in den Suchergebnissen erscheinen oder nachträglich nach kurzer Zeit aus den Suchergebnissen entfernt werden. Die direkte Suche nach dieser Unterseite, zum Beispiel per site:-Abfrage würde ausgeben, dass diese URL nicht gefunden wurde.

Anweisungen in der robots.txt, die per „Disallow“ bestimmte Verzeichnisse und URLs vom Crawling ausschließen soll, verfahren nach dem Prinzip „Beginnt mit…“. Sprich: Schreibe ich in die robots.txt-Datei eine Zeile mit „Disallow: /test/“, so darf weder die Unterseite /test/ als auch alle derer Unterseiten als auch Dateien unter diesem Pfad gecrawlt werden.

Logischerweise würde man beim Kombinieren beider Fälle annehmen, dass bei einem Eintrag in der robot.txt mit „Noindex: /“ nach kurzer Zeit die komplette Website aus dem Index der Suchmaschinen entfernt werden.

Realität / Schnellzusammenfassung

Dies ist eine schnelle Zusammenfassung. Weitere Details findest du im Laufe des Artikels.

  • Die ersten 7 Tage passiert so gut wie gar nichts.
  • Ab dem 7. Tag beginnt Google damit, deine Suchergebnisse so darzustellen, als würden sie per „Disallow“ vom Crawling ausgeschlossen.
  • Deine Seiten bleiben auch nach dem 7. Tag weiterhin im Google Index
  • Andere Suchmaschinen reagieren (fast) gar nicht auf den Noindex in der robots.txt (abhängig von den untersuchten Suchmaschinen)
  • Nur eine Suchmaschine hatte sich anhand der gesammelten Daten anscheinend an der Erwartung gehalten: Ask.com

Die Testumgebung: nextlevelSEO.de

Als Test habe ich diesen Blog verwendet. Dazu habe ich eine Zeile in der robots.txt ergänzt:

Noindex: /

nextlevelSEO hatte zu Beginn:

  • 285 indexierte Seiten laut Google Search Console (und 0 blockierte Seiten)
  • 214 indexierte Seiten nach site:-Abfrage in Google (normale site::-Abfrage)
  • 271 indexierte Seiten laut Bing Webmastertools
  • 240 indexierte Seiten nach site:-Abfrage in Bing (normale site:-Abfrage)
  • 243 indexierte Seiten nach site:-Abfrage in Yahoo!
  • 50 indexierte Seiten nach site:-Abfrage in Ask.com
  • 236 indexierte Seiten nach site:-Abfrage in AOL.de
  • 27 indexierte Seiten nach site:-Abfrage in Yandex.ru

Alle gesammelten Daten und Auswertungen

Insgesamt wurden Daten gesammelt und ausgewertet von:

  • Google Search Console: Indexierungsstatus
  • Google site:-Abfrage
  • Bing Webmastertools: Indexierungsstatus
  • Bing site:-Abfrage
  • Yahoo! site:-Abfrage
  • Aol.de site:-Abfrage
  • Ask.com site-Abfrage
  • Yandex.ru site:-Abfrage

Auswertung Google.de Search Console

Google Search Console: Seiten wurden nicht deindexiert, aber als blockiert markiert

Google Search Console: Seiten wurden nicht deindexiert, aber als blockiert markiert. Daten und Chart: Pascal Horn / nextlevelSEO.de

Auffällig bei Google war durchgehend, dass sie keine einzige Seite wirklich aus dem Index genommen haben. Die Noindex-Angabe in der robots.txt hat sich komplett wie eine Disallow-Anweisung verhalten. Das macht nicht nur der oben gezeigte Chart aus der Google Search Console deutlich, sondern auch die site:-Abfragen in der Suchmaschine:

Auswertung Google.de site:-Abfrage

Google site:-Abfragen: Seiten wurden auch hier nicht deindexiert, aber als blockiert markiert

Google site:-Abfragen: Seiten wurden auch hier nicht deindexiert, aber als blockiert markiert. Daten und Chart: Pascal Horn / nextlevelSEO.de

Bei den site:-Abfragen bei Google gibt es aber ein paar Besonderheiten, die näher erklärt werden müssen.

  • Die ersten Auffälligkeiten, dass Seiten „blockiert“ wurden, gab es ab dem (hier im Chart) 8. Testtag. Heißt: Erst ab dann habe ich bei der Abfrage gesehen, dass es „mehr“ Suchergebnisse gibt. Dazu klickt man sich auf die letzte Seite der SERPs duurch um dann zu lesen, dass ein paar Seiten ausgelassen wurden. Mehr dazu siehe unter dem Bereich „Auffälligkeiten der Daten chronologisch sortiert“.
  • Nimmt man den Disallow trotzdem als „Standard“ an, so fällt auf, dass ab dem 22. Testtag kaum weitere negative Veränderung auftaucht. Das ist merkwürdig, denn wenn hätte ich erwartet, dass der Chart weiter absinkt.
  • Nach Beendigung des Tests am 28. Testtag ging es wieder sprunghaft nach oben mit den indexierten Seiten.
  • Spätestens ab dem 39. Testtag war mir klar, dass etwas nicht stimmt. Google hat mich zwar bis zur Seite 18 gelassen (in beiden Fällen, also ohne Klick auf „weitere Suchergebnisse anzeigen“ als auch nach Klick darauf). Es gibt einfach nicht mehr bbis auf Seite 19. Wie es genau dazu gekommen ist bzw. warum mir Google keine Seite 19 mehr ausgegeben hat, ist mir auch nach der Auswertung noch schleierhaft und kann ich so nicht pauschal erklären. Falls jemand Anregungen hat, gerne unten in die Kommentare. 🙂

Auswertung Bing Webmastertools und Bing site:-Abfragen

Die Bing Webmastertools und site:-Abfragen zeigen, dass Noindex-Angaben in der robots.txt keinen Effekt ei Bing haben.

Die Bing Webmastertools und site:-Abfragen zeigen, dass Noindex-Angaben in der robots.txt keinen Effekt bei Bing haben. Daten und Chart: Pascal Horn / nextlevelSEO.de

Bei der Chart-Auswertung des Bing Indexes kann man ganz klar feststellen, dass quasi keine Veränderung auf die Indexierung stattgefunden habt, die im Zusammenhang mit dem Test im Verhältnis stehen. Hier kann man also die klare Aussage treffen: Bing hält sich nicht an einen Noindex in der robots.txt.

Yahoo! site:-Abfragen

Die Yahoo! site:-Abfragen zeigen ebenfalls keinen Effekt auf den Test.

Die Yahoo! site:-Abfragen zeigen ebenfalls keinen Effekt auf den Test. Daten und Chart: Pascal Horn / nextlevelSEO.de

Da die Yahoo!-Suche bekanntlich auf die Bing-Suche basiert ist es nicht überraschend, dass es auch hier dann keine Auswirkungen auf den Test gab. Fazit auch hier: Yahoo! ist es Schnuppe, ob eine Noindex-Angabe in der robots.txt steht.

Aol.de site:-Abfragen

Auch bei Aol.de keine Unterschiede zu Bing und Yahoo!.

Auch bei Aol.de keine Unterschiede zu Bing und Yahoo!. Daten und Chart: Pascal Horn / nextlevelSEO.de

Tja, auch Aol.de basiert auf Bing. Auch hier gibt es keine Änderungen und die gleiche Aussage gilt wie bei Bing und Yahoo!: Aol.de hält sich nicht an die Noindex-Angabe.

Ask.com site:-Abfrage

Ask.com scheint den Noindex in der robots.txt zu berücksichtigen Glückwunsch!

Ask.com scheint den Noindex in der robots.txt zu berücksichtigen Glückwunsch! Daten und Chart: Pascal Horn / nextlevelSEO.de

Ask.com ist wohl ziemlich der Überraschungssieger in diesem Test. Auch wenn die Ausgangslage der Daten von Ask.com mit 50 indexierten Seiten nicht gerade die besten sind, so zeigt der Chart mengenmäßig und prozentual gesehen doch eindrucksvoll das, was die eigentliche Erwartung an den Test für alle Suchmaschinen gewesen wäre. Fazit: Ask.com hält sich wahrscheinlich an den Noindex in der robots.txt.

Yandex.ru site:-Abfrage

Die Daten von Yandex.ru lassen leider keine Rückschlüsse auf diesen Test zu.

Die Daten von Yandex.ru lassen leider keine Rückschlüsse auf diesen Test zu. Daten und Chart: Pascal Horn / nextlevelSEO.de

Yandex hatte ich zwar auch getestet, aber hier haben wir es mit mehreren Problemen zu tun: Erstenns ist die Ausgangslage mit nur 27 Seiten im Index enorm schlecht für eine Chart-Darstellung. Zum Zweiten zeigt der Chart scheinbar völlig wirr, was im Index war. Entweder Yandex ist für deutsche und deutschsprachige Seiten sehr langsam… und/oder die Daten sind einfach unbrauchbar. Da mein Bauchgefühl deutlich zum Unbrauchbaren geht, kann hier keine feste Aussage getroffen werden. Nicht mal ansatzweise.

Aber die gesammelten Daten und den Chart wollte ich euch nicht vorenthalten, vielleicht könt ihr ja was raus interpretieren. Gerne in die Comments unten. 🙂

Auffälligkeiten der Daten chronologisch sortiert

1. – 2. Testtag

Keine Auffälligkeiten.

3. Testtag

Google vermerkt in der Search Console den Hinweis: „Es wurden schwerwiegende Probleme bezüglich des Status Ihrer Property gefunden. Property-Status überprüfen

Google Search Console zeigt Property Fehler nach 2 1/2 Tagen

Google Search Console zeigt Property Fehler nach 2 1/2 Tagen

Mit Klick auf „Property-Status überprüfen“ erhält man die Fehlermeldung:

Werden wichtige Seiten blockiert? – Eine wichtige Seite wird durch robots.txt blockiert.

Wobei der Hinweis „Eine wichtige Seite“ wiederum auf meine Startseite verlinkt. Welch Überraschung…

3. – 6. Testtag

Keine Auffälligkeiten.

7. Testtag

Wie gesagt: Erwartet gewesen wäre, dass Google und andere Suchmaschinen die Anzahl an Suchergebnissen auch nach einer site:-Abfrage drastisch reduzieren oder sogar auf 0 setzen würden.

Tatsächlich erfolgten aber erstmals Suchergebnisse (sowohl in Google.de als auch Google.co.uk), die man sonst nur per „Disallow“ aus der robots.txt kennt:

28. Testtag: Kein Noindex trotz Noindex

Nach 4 Wochen waren alle Seiten noch immer im Index von Google, Bing und Yahoo!. Auch wenn bei Google die indexierten Seiten bei einer site:-Abfrage zum Großteil als nicht leserlich durch den Googlebot markiert waren, so waren sie trotzdem auffindbar. Selbst unter wichtigen Keywords, wie „HTML Sonderzeichen“ war meine Sonderzeichentabelle unter den Top 10 zu finden, teilweise sogar auf Platz 3 oder Platz 2 in Google, obwohl der typische robots.txt-Fehler ausgegeben wurde.

Fazit: Was ergibt sich aus dem Test?

  • Google benutzt Noindex in der robots.txt als wäre es ein Disallow
  • Bing, Yahoo! und Aol.de scheinen den Noindex in der robots.txt nicht zu berücksichtigen
  • Ask.com berücksichtig den Noindex in der robots.txt mit größerer Wahrscheinlichkeit
  • Yandex.ru ist zu diesem Test nicht einschätzbar.

2 Comments

  1. Vielen dank für den Beitrag, sehr interessante Thematik und die Grafik unterstützen das Thema ungemein. Gerne in Zukunft mehr darüber!

    Liebe Grüße

  2. Wirklich interessant – den Test habe ich damals leider nicht durchgezogen. Vor einiger Zeit hat es aber mit dem Deindexieren durch robots.txt und NOINDEX: noch sehr gut geklappt.

    Es gab dazu ein Statement von Jonny Müller, der gesagt hat, dass NOINDEX nicht unterstützt wird und sich dort was geändert haben kann.

    https://www.seroundtable.com/google-do-not-use-noindex-in-robots-txt-20873.html
    Hier was schon vor einer Weile getweetet wurde. Die aktuelle Aussage hat er in einem Hangout gemacht.

    Die Search Console reagiert aber noch auf NOINDEX. Das steht auch „blockiert“, was deine These und Daten weiterhin unterstützt, dass es wie Disallow wirkt.

    Aber mal interessant zu sehen, was die anderen Suchmaschinen so damit machen 🙂

    Grüße
    Patrick

    PS: Der Leser fragt sich vielleicht, wie er nun deindexieren soll. Vielleicht für die etwas neueren SEO hier den richtigen Ausweg bereithalten. Dann kommt auch der Aha-Effekt. Ich weiß, dass es für uns selbstverständlich, was man da macht, aber das weiß ja nicht jeder.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.