SEO-Test: Was Noindex in der robots.txt bewirkt

Funktioniert eine Noindex-Angabe in der robots.txt? In diesem Test finden wir heraus, welche Suchmaschine sich dran hält - und welche nicht.

Ende November habe ich einen neuen Test gestartet: Ich habe meine komplette nextlevelseo.de per robots.txt auf Noindex gestellt. Dabei sind interessante Ergebnisse herausgekommen, die ich gerne wieder mit euch teilen möchte.

Wie sieht ein Noindex in der robots.txt aus?

Die robots.txt ist im Normalfall dazu da, und Anweisungen zu geben, was sie untersuchen dürfen und was nicht. Im Normalfall schließt man beispielsweise Bots von bestimmten Verzeichnissen aus, so wie hier im Beispiel das Verzeichnis /test/ nicht untersucht und auch nicht gecrawlt werden darf:

Disallow: /test/

Das Disallow stellt dabei eine Art „Stoppschild“ dar. Kein und Crawler darf das Stoppschild überqueren.

Dieser Test sollte nun herausfinden, ob und wie Suchmaschinen auf einen Noindex in der robots.txt reagieren. Dazu habe ich meine komplette Domain nextlevelseo.de am 5. November 2016 mit folgender Zeile in der robots.txt markiert:

Noindex: /

Erwartung

Nimmt man eine normale Unterseite und hinterlegt dort einen robots-Meta-Tag, der mit einem Noindex befüllt ist, so sollte diese Unterseite entweder nicht in den Suchergebnissen erscheinen oder nachträglich nach kurzer Zeit aus den Suchergebnissen entfernt werden. Die direkte Suche nach dieser Unterseite, zum Beispiel per site:-Abfrage würde ausgeben, dass diese URL nicht gefunden wurde.

Anweisungen in der robots.txt, die per „Disallow“ bestimmte Verzeichnisse und URLs vom Crawling ausschließen soll, verfahren nach dem Prinzip „Beginnt mit…“. Sprich: Schreibe ich in die robots.txt-Datei eine Zeile mit „Disallow: /test/“, so darf weder die Unterseite /test/ als auch alle derer Unterseiten als auch Dateien unter diesem Pfad gecrawlt werden.

Logischerweise würde man beim Kombinieren beider Fälle annehmen, dass bei einem Eintrag in der robot.txt mit „Noindex: /“ nach kurzer Zeit die komplette Website aus dem Index der Suchmaschinen entfernt werden.

Realität / Schnellzusammenfassung

Dies ist eine schnelle Zusammenfassung. Weitere Details findest du im Laufe des Artikels.

  • Die ersten 7 Tage passiert so gut wie gar nichts.
  • Ab dem 7. Tag beginnt Google damit, deine Suchergebnisse so darzustellen, als würden sie per „Disallow“ vom Crawling ausgeschlossen.
  • Deine Seiten bleiben auch nach dem 7. Tag weiterhin im Google Index
  • Andere Suchmaschinen reagieren (fast) gar nicht auf den Noindex in der robots.txt (abhängig von den untersuchten Suchmaschinen)
  • Nur eine Suchmaschine hatte sich anhand der gesammelten Daten anscheinend an der Erwartung gehalten: Ask.com

Die Testumgebung: nextlevelSEO.de

Als Test habe ich diesen Blog verwendet. Dazu habe ich eine Zeile in der robots.txt ergänzt:

Noindex: /

nextlevelSEO hatte zu Beginn:

  • 285 indexierte Seiten laut Google Search Console (und 0 blockierte Seiten)
  • 214 indexierte Seiten nach site:-Abfrage in Google (normale site::-Abfrage)
  • 271 indexierte Seiten laut Bing Webmastertools
  • 240 indexierte Seiten nach site:-Abfrage in Bing (normale site:-Abfrage)
  • 243 indexierte Seiten nach site:-Abfrage in Yahoo!
  • 50 indexierte Seiten nach site:-Abfrage in Ask.com
  • 236 indexierte Seiten nach site:-Abfrage in AOL.de
  • 27 indexierte Seiten nach site:-Abfrage in Yandex.ru

Alle gesammelten Daten und Auswertungen

Insgesamt wurden Daten gesammelt und ausgewertet von:

  • Google Search Console: Indexierungsstatus
  • Google site:-Abfrage
  • Bing Webmastertools: Indexierungsstatus
  • Bing site:-Abfrage
  • Yahoo! site:-Abfrage
  • Aol.de site:-Abfrage
  • Ask.com site-Abfrage
  • Yandex.ru site:-Abfrage

Auswertung Google.de Search Console

Google Search Console: Seiten wurden nicht deindexiert, aber als blockiert markiert

Google Search Console: Seiten wurden nicht deindexiert, aber als blockiert markiert. Daten und Chart: Pascal Horn / nextlevelSEO.de

Auffällig bei Google war durchgehend, dass sie keine einzige Seite wirklich aus dem Index genommen haben. Die Noindex-Angabe in der robots.txt hat sich komplett wie eine Disallow-Anweisung verhalten. Das macht nicht nur der oben gezeigte Chart aus der Google Search Console deutlich, sondern auch die site:-Abfragen in der Suchmaschine:

Auswertung Google.de site:-Abfrage

Google site:-Abfragen: Seiten wurden auch hier nicht deindexiert, aber als blockiert markiert

Google site:-Abfragen: Seiten wurden auch hier nicht deindexiert, aber als blockiert markiert. Daten und Chart: Pascal Horn / nextlevelSEO.de

Bei den site:-Abfragen bei Google gibt es aber ein paar Besonderheiten, die näher erklärt werden müssen.

  • Die ersten Auffälligkeiten, dass Seiten „blockiert“ wurden, gab es ab dem (hier im Chart) 8. Testtag. Heißt: Erst ab dann habe ich bei der Abfrage gesehen, dass es „mehr“ Suchergebnisse gibt. Dazu klickt man sich auf die letzte Seite der SERPs duurch um dann zu lesen, dass ein paar Seiten ausgelassen wurden. Mehr dazu siehe unter dem Bereich „Auffälligkeiten der Daten chronologisch sortiert“.
  • Nimmt man den Disallow trotzdem als „Standard“ an, so fällt auf, dass ab dem 22. Testtag kaum weitere negative Veränderung auftaucht. Das ist merkwürdig, denn wenn hätte ich erwartet, dass der Chart weiter absinkt.
  • Nach Beendigung des Tests am 28. Testtag ging es wieder sprunghaft nach oben mit den indexierten Seiten.
  • Spätestens ab dem 39. Testtag war mir klar, dass etwas nicht stimmt. Google hat mich zwar bis zur Seite 18 gelassen (in beiden Fällen, also ohne Klick auf „weitere Suchergebnisse anzeigen“ als auch nach Klick darauf). Es gibt einfach nicht mehr bbis auf Seite 19. Wie es genau dazu gekommen ist bzw. warum mir Google keine Seite 19 mehr ausgegeben hat, ist mir auch nach der Auswertung noch schleierhaft und kann ich so nicht pauschal erklären. Falls jemand Anregungen hat, gerne unten in die Kommentare. 🙂

Auswertung Bing Webmastertools und Bing site:-Abfragen

Die Bing Webmastertools und site:-Abfragen zeigen, dass Noindex-Angaben in der robots.txt keinen Effekt ei Bing haben.

Die Bing Webmastertools und site:-Abfragen zeigen, dass Noindex-Angaben in der robots.txt keinen Effekt bei Bing haben. Daten und Chart: Pascal Horn / nextlevelSEO.de

Bei der Chart-Auswertung des Bing Indexes kann man ganz klar feststellen, dass quasi keine Veränderung auf die Indexierung stattgefunden habt, die im Zusammenhang mit dem Test im Verhältnis stehen. Hier kann man also die klare Aussage treffen: Bing hält sich nicht an einen Noindex in der robots.txt.

Yahoo! site:-Abfragen

Die Yahoo! site:-Abfragen zeigen ebenfalls keinen Effekt auf den Test.

Die Yahoo! site:-Abfragen zeigen ebenfalls keinen Effekt auf den Test. Daten und Chart: Pascal Horn / nextlevelSEO.de

Da die Yahoo!-Suche bekanntlich auf die Bing-Suche basiert ist es nicht überraschend, dass es auch hier dann keine Auswirkungen auf den Test gab. Fazit auch hier: Yahoo! ist es Schnuppe, ob eine Noindex-Angabe in der robots.txt steht.

Aol.de site:-Abfragen

Auch bei Aol.de keine Unterschiede zu Bing und Yahoo!.

Auch bei Aol.de keine Unterschiede zu Bing und Yahoo!. Daten und Chart: Pascal Horn / nextlevelSEO.de

Tja, auch Aol.de basiert auf Bing. Auch hier gibt es keine Änderungen und die gleiche Aussage gilt wie bei Bing und Yahoo!: Aol.de hält sich nicht an die Noindex-Angabe.

Ask.com site:-Abfrage

Ask.com scheint den Noindex in der robots.txt zu berücksichtigen Glückwunsch!

Ask.com scheint den Noindex in der robots.txt zu berücksichtigen Glückwunsch! Daten und Chart: Pascal Horn / nextlevelSEO.de

Ask.com ist wohl ziemlich der Überraschungssieger in diesem Test. Auch wenn die Ausgangslage der Daten von Ask.com mit 50 indexierten Seiten nicht gerade die besten sind, so zeigt der Chart mengenmäßig und prozentual gesehen doch eindrucksvoll das, was die eigentliche Erwartung an den Test für alle Suchmaschinen gewesen wäre. Fazit: Ask.com hält sich wahrscheinlich an den Noindex in der robots.txt.

Yandex.ru site:-Abfrage

Die Daten von Yandex.ru lassen leider keine Rückschlüsse auf diesen Test zu.

Die Daten von Yandex.ru lassen leider keine Rückschlüsse auf diesen Test zu. Daten und Chart: Pascal Horn / nextlevelSEO.de

Yandex hatte ich zwar auch getestet, aber hier haben wir es mit mehreren Problemen zu tun: Erstenns ist die Ausgangslage mit nur 27 Seiten im Index enorm schlecht für eine Chart-Darstellung. Zum Zweiten zeigt der Chart scheinbar völlig wirr, was im Index war. Entweder Yandex ist für deutsche und deutschsprachige Seiten sehr langsam… und/oder die Daten sind einfach unbrauchbar. Da mein Bauchgefühl deutlich zum Unbrauchbaren geht, kann hier keine feste Aussage getroffen werden. Nicht mal ansatzweise.

Aber die gesammelten Daten und den Chart wollte ich euch nicht vorenthalten, vielleicht könt ihr ja was raus interpretieren. Gerne in die Comments unten. 🙂

Auffälligkeiten der Daten chronologisch sortiert

1. – 2. Testtag

Keine Auffälligkeiten.

3. Testtag

Google vermerkt in der Search Console den Hinweis: „Es wurden schwerwiegende Probleme bezüglich des Status Ihrer Property gefunden. Property-Status überprüfen

Google Search Console zeigt Property Fehler nach 2 1/2 Tagen

Google Search Console zeigt Property Fehler nach 2 1/2 Tagen

Mit Klick auf „Property-Status überprüfen“ erhält man die Fehlermeldung:

Werden wichtige Seiten blockiert? – Eine wichtige Seite wird durch robots.txt blockiert.

Wobei der Hinweis „Eine wichtige Seite“ wiederum auf meine Startseite verlinkt. Welch Überraschung…

3. – 6. Testtag

Keine Auffälligkeiten.

7. Testtag

Wie gesagt: Erwartet gewesen wäre, dass Google und andere Suchmaschinen die Anzahl an Suchergebnissen auch nach einer site:-Abfrage drastisch reduzieren oder sogar auf 0 setzen würden.

Tatsächlich erfolgten aber erstmals Suchergebnisse (sowohl in Google.de als auch Google.co.uk), die man sonst nur per „Disallow“ aus der robots.txt kennt:

28. Testtag: Kein Noindex trotz Noindex

Nach 4 Wochen waren alle Seiten noch immer im Index von Google, Bing und Yahoo!. Auch wenn bei Google die indexierten Seiten bei einer site:-Abfrage zum Großteil als nicht leserlich durch den Googlebot markiert waren, so waren sie trotzdem auffindbar. Selbst unter wichtigen Keywords, wie „HTML Sonderzeichen“ war meine Sonderzeichentabelle unter den Top 10 zu finden, teilweise sogar auf Platz 3 oder Platz 2 in Google, obwohl der typische robots.txt-Fehler ausgegeben wurde.

Wie sollte man also richtig deindexieren?

Anhand des Tests stellen wir fest, dass die Deindexierung mit einer Noindex-Angabe in der robots.txt nicht funktioniert. Die Seiten bleiben weiterhin im Index, auch wenn sie durch das Label gekennzeichnet werden, dass diese Seiten nicht untersucht werden dürfen.

Klar werden diese Seiten nicht zu wichtigen Shordhead-Keywords auf den ersten Plätzen ranken. Allerdings habe ich auch bemerkt, dass so per robots.txt blockierte Inhalte – sei es mit Noindex oder per Disallow – trotzdem das Potential haben zu interessanten Suchbegriffen zu ranken.

Wenn man also seine Seiten tatsächlich aus Google raus haben möchte, sollte man wie folgt vorgehen:

  1. Die Seiten nicht per robots.txt vom Crawling ausschließen
  2. Die Seiten per Meta Tag auszeichnen, dass sie nicht im Index landen sollten:
    • <meta name=“robots“ content=“noindex“ />
  3. Wenn Seiten nachträglich aus der Google Suche verschwinden sollen, verwende Punkt 2 als auch die Google Search Console:
    1. Klicke in der Google Search Console auf „Google Index“ → „URLs entfernen“ und klicke hier auf den Button „Vorübergehend ausblenden“.
      1. Trage hier deine URL ein und wähle anschließend „Seite vorübergehend in den Suchergebnissen ausblenden und aus dem Cache entfernen“ aus, wenn du nur eine einzelne Seite aus dem Index schnell entfernen musst.
      2. Musst du ein ganzes Verzeichnis aus der Google Suche ausschließen, eignet sich an der Stelle eher der Punkt „Verzeichnis vorübergehend ausblenden“.
  4. Optional, wenn du weißt was du tust: In der XML-Sitemap das Crawling-Intervall für eine Unterseite erhöhen (z. B. statt wöchentlich auf monatlich oder jährlich setzen)

Ich möchte darauf hinweisen, dass dieser Weg via Search Console erstens nur dann langfristig funktioniert, wenn die Seiten nachhaltig per Meta Robots auf Noindex gesetzt werden.

Des Zweiteren möchte ich ausdrücklich darauf hinweisen, dass du wissen solltest, was du hier tust. Wenn du Seiten aus dem Index kickst, gibt es keine Möglichkeit für diese Seite(n) in der Google Suche zu ranken. Deindexiere deine Seiten nicht, wenn du nicht ganz exakt weißt, was du tust.

Und Drittens: Die Noindex-Angabe eignet sich in der robots.txt wirklich nicht für die Deindexierung. Du musst quasi den Bots erlauben, die Seite zu untersuchen, denn sonst können Sie die Seite(n) nicht untersuchen und dann nicht den Noindex in dem Meta Tag robots lesen.

Weitere Hilfen im Wiki

Fazit: Was ergibt sich aus dem Test?

  • Google benutzt Noindex in der robots.txt als wäre es ein Disallow
  • Bing, Yahoo! und Aol.de scheinen den Noindex in der robots.txt nicht zu berücksichtigen
  • Ask.com berücksichtigt den Noindex in der robots.txt mit größerer Wahrscheinlichkeit
  • Yandex.ru ist zu diesem Test nicht einschätzbar.
  • Noindex also NIE per robots.txt, sondern IMMER mit dem Meta Tag „robots“ auszeichnen.

4 Comments

  1. Vielen dank für den Beitrag, sehr interessante Thematik und die Grafik unterstützen das Thema ungemein. Gerne in Zukunft mehr darüber!

    Liebe Grüße

  2. Wirklich interessant – den Test habe ich damals leider nicht durchgezogen. Vor einiger Zeit hat es aber mit dem Deindexieren durch robots.txt und NOINDEX: noch sehr gut geklappt.

    Es gab dazu ein Statement von Jonny Müller, der gesagt hat, dass NOINDEX nicht unterstützt wird und sich dort was geändert haben kann.

    https://www.seroundtable.com/google-do-not-use-noindex-in-robots-txt-20873.html
    Hier was schon vor einer Weile getweetet wurde. Die aktuelle Aussage hat er in einem Hangout gemacht.

    Die Search Console reagiert aber noch auf NOINDEX. Das steht auch „blockiert“, was deine These und Daten weiterhin unterstützt, dass es wie Disallow wirkt.

    Aber mal interessant zu sehen, was die anderen Suchmaschinen so damit machen 🙂

    Grüße
    Patrick

    PS: Der Leser fragt sich vielleicht, wie er nun deindexieren soll. Vielleicht für die etwas neueren SEO hier den richtigen Ausweg bereithalten. Dann kommt auch der Aha-Effekt. Ich weiß, dass es für uns selbstverständlich, was man da macht, aber das weiß ja nicht jeder.

  3. PS: Der Leser fragt sich vielleicht, wie er nun deindexieren soll. Vielleicht für die etwas neueren SEO hier den richtigen Ausweg bereithalten. Dann kommt auch der Aha-Effekt. Ich weiß, dass es für uns selbstverständlich, was man da macht, aber das weiß ja nicht jeder.

    Aha, und anstatt jetzt hier mal konkret zu werden, gibt´s wie immer, nur einen Link, der den hilfesuchenden Leser auf eine englischsprachige Seite führt.
    Auf jeder Seite nur halbe Sachen; Hauptsache mal ein Beitrag gebracht.

    1. Hallo Scharlotte,

      du hast in einem wichtigen Punkt recht. Der Leser fragt sich vielleicht wirklich an der Stelle, wie er deindexieren soll. Ich habe einen Textabschnitt hinzugefügt, der diesen Bereich behandelt und hoffe, dass der ausreicht: Wie sollte man also richtig deindexieren?

      Beim Rest was den Kommentar betrifft: Gib mir gerne Gegenbeispiele oder weitere Hinweise. Ich versuche auch nur zu lernen, aber das was ich gelernt und analysiert habe versuche ich dann auch anderen anschaulich zu vermitteln. Ich bin nicht perfekt, deshalb verbessere mich wo du kannst. 🙂

      Schöne Grüße

      Pascal

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.