SEO Test: Liest Google per robots.txt gesperrte Inhalte aus?

SEO Test zu Google, Bing und Yahoo!, Facebook, Twitter und Google+: Wer liest per robots.txt gesperrte Inhalte doch aus und indexiert sie?

In einem SEO Test habe ich untersucht, ob und wie die Suchmaschinen Google, Bing und Yahoo! sowie Facebook, Twitter und Google+ per robots.txt gesperrte Inhalte doch irgendwie auslesen und in den Index aufnehmen. Hier ist das Resultat.

Kurzer Rückblick: Am 27. März habe ich hier auf nBlogs 8 Artikel und 10 weitere statische HTML-Seiten veröffentlicht, die alle per robots.txt für alle gesperrt wurden. Das sieht dann so in der robots.txt aus:

User-agent: *
Disallow: /liest-google-per-robots-txt-gesperrte-inhalte-aus
Disallow: /testordner/
Disallow: /?p=5355
Disallow: /?p=5357
Disallow: /?p=5358
Disallow: /?p=5359
Disallow: /?p=5360
Disallow: /?p=5361
Disallow: /?p=5362
Disallow: /?p=5363

Schnell-Zusammenfassung: Wer wertet was aus?

Der Testzeitraum umfasste 6 Tage, insgesamt 147 Stunden. Die folgenden Aussagen zur robots.txt-Indexierbarkeit kann ich auf Basis dieses Zeitraums und für die Plattformen Google, Bing, Yaoo!, Facebook, Twitter und Google+ mit 18 getesteten Web-Inhalten liefern:

Web-DienstResultat
Google WebsucheGoogle versucht jeden geblockten Inhalt zu indexieren, sobald eine URL von einer Website verlinkt wird.

  • Google ist sehr schnell und nimmt die Inhalte – trotz Sperrung – innerhalb von 48 Stunden in den Index auf.
  • Jeder Inhalt, der von der Website aus verlinkt war, wurde in den Index aufgenommen.
  • Google verwendet im Suchsnippet als blaue Überschrift den Verlinkungstext zur gesperrten Seite.
  • Als Beschreibung (Description) wird der klassische robots.txt-Fehler ausgegeben.
  • Alle indexierten Inhalte wurden nicht gecrawlt, wie es die robots.txt auch vorsieht.
  • Title Tag, Noindex, Google Analytics-Code und das spezifische Aufrufen im Google Chrome Browser unter Android spielten keine Rolle. Sie wurden nicht von Google überprüft.
Bing WebsucheBing ist sehr langsam mit der Aufnahme neuer Seiten in ihren Index, versucht aber trotzdem, alle gefundenen Inhalte in den Index aufzunehmen.

  • Bing hat „nicht-Blogartikel“ nicht in den Index aufgenommen, obwohl auch sie aktiv verlinkt wurden.
  • Nur 7 von 8 Blogartikeln (alle verlinkt) und 0 von 8 statischen HTML-Elementen (4 von 8 verlinkt) wurden in den Index aufgenommen.
  • Bing scheiterte bei 2 von 8 Blogartikeln und übernahm den Title der Website – also crawlte diese, trotz Verbots über die robots.txt.
Yahoo! WebsucheYahoo! ist wie Bing ebenfalls sehr langsam mit der Aufnahme neuer Inhalte. Obwohl Bing an Yahoo! aneinander gekoppelt ist, unterscheiden sich die Ergebnisse leicht. Auch Yahoo! versucht, alle Inhalte in den Index aufzunehmen.

  • Yahoo! hat alle Blogartikel in den Index aufgenommen.
  • Alle statischen HTML-Seiten, die nur von der Website aus verlinkt waren, wurden nicht in den Index aufgenommen.
  • Yahoo! scheiterte wie Bing bei 2 Blogartikeln (von 8) und hat dort den Title Tag als Suchergebnis ausgegeben – also die Seiten gecrawlt.
Facebook ShareFacebook kümmert es nicht, was die robots.txt sagt. Wenn etwas auf Facebook geteilt wird, wird die Seite trotzdem untersucht.

  • Titles wurden alle übernommen.
  • Beschreibungen bzw. Text der Artikel wurden verwendet.
  • Artikelbilder werden verwendet.
Twitter TweetIm Gegensatz zu Facebook gibt Twitter keine weiteren Details zu den Links an.
Google+ ShareGoogle+ veröffentlicht beim Teilen eines Links trotzdem Inhalte von der Website.

  • Title Tag wird übernommen.
  • Ein Bild aus dem Artikel wird verwendet.
  • Aber: Google+ Shares haben keine Auswirkungen auf die normalen Google Suchergebnisse.

Zu den tabellarischen Detail-Übersichten springen

Überspringe die Testumgebung und gehe gleich zu den Auswertungen, die in Tabellen zusammengefasst wurden:

Ansonsten folgt jetzt erst noch die Testumgebung – und was das Ganze eigentlich (aussagen) soll. 😉

Noch mehr Interpretationen in der aktuellen Website Boosing #33

Noch mehr Infos zu diesem Artikel in der Website Boosting #33

Noch weitere Anmerkungen zu den Testergebnissen und Ableitungen daraus findest du in der aktuellen Ausgabe der Website Boosing #33. Dort beschreibe ich diesen Noindex-Test und zwei weitere Tests zum Nofollow-Attribut und dem Noindex Test.

Preis: 9,80 Euro (+Porto)

Was soll der robots.txt-Test zeigen und aussagen?

Ziel dieses Tests war es herauszufinden, ob und wie Suchmaschinen die Inhalte doch irgenwie in den Index aufnehmen, obwohl die Inhalte per robots.txt gesperrt waren. Dabei wurden die Inhalte unterschiedlich behandelt und an die Suchmaschinen weiter gegeben, wie ich gleich näher erkläre.

Dass beispielsweise Google Seiten trotzdem in seinen Index aufnimmt, obwohl sie per robots.txt gesperrt sind, das ist wohl unbestritten. Stattdessen wird eben zum Suchergebnis diese Description ausgegeben:

Per robots.txt gesperrter Inhalt taucht in den Suchergebnissen bei Google auf

Per robots.txt gesperrter Inhalt taucht in den Suchergebnissen bei Google auf. Eigener Screenshot

Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar. Weitere Informationen

Was der Test also aussagen soll ist

  • Werden gesperrte Inhalte bei Google trotzdem irgendwie indexiert?
    • Wenn sie indexiert werden, welche Überschrift verwendet Google in seinen Suchergebnissen?
  • Werden die Inhalte von Google direkt untersucht, also trotz Verbots gecrawlt?
  • Wenn die Inhalte in den Index kommen, welche Faktoren spielen dabei eine mögliche Rolle?

Alle genannten Punkte hatte ich natürlich nicht nur die Suchmaschine Google, sondern auch Bing und Yahoo! getestet. Außerdem habe ich die Social Media Plattformen Facebook, Twitter und Google+ und ihre Sharability des Inhalts untersucht. Wer hält sich an die robots.txt, wer verwendet Tricks und wer hält sich gar nicht daran?

Die Hypothese: Suchmaschinen indexieren geblockte Inhalte, sobald sie eine Überschrift haben

Meine Hypothese vor dem Test lautete wie folgt (Copy Paste aus den Testartikeln):

  • Google wird alle Seiten, die von der Website aus verlinkt sind, aufnehmen
    • Die Überschrift des Suchergebnisses wird der Verlinkungstext sein, nicht der aktuelle Title der Webseite
  • Google wird alle Seiten, die in der XML-Sitemap hinterlegt wurden, zumindest versuchen, aufzunehmen.
    • Fraglich ist jedoch, ob sie tatsächlich aufgenommen werden, wenn die Sitemap nur die URL und nicht einen Title erwähnt und nicht anderweitig verlinkt sind.
    • Ähnlich wie bei der Google Bildersuche: Ein Bild in der XML Sitemap kann übermittelt werden, damit es schneller in den Index aufgenommen wird; aber es muss auch auf einer sichtbaren Website eingebunden werden, um in der Bildersuche zu erscheinen.

Bing und Yahoo! werden ähnlich agieren.

Wie sich Facebook, Twitter und Google+ verhalten würden, davon hatte ich keinen blassen Schimmer. Umso schöner ist es, diese Ergebnisse nun auch darstellen zu können.

Testumgebung auf nBlogs

Bei diesem Test wurden 18 Seiten auf nextlevelSEO.de online gestellt, die alle per robots.txt gesperrt waren. Warum 18 Seiten? Ich wollte sicher gehen, dass alle verschiedenen Möglichkeiten berücksichtigt werden. Von einer Seite, die maximal verlinkt und geshared wurde und von Seiten, die gar nicht verlinkt und geshared wurden.

Dabei wurde jeweils immer ein Blogartikel mit den folgenden Eigenschaften veröffentlicht:

robots.txt Test: BlogartikelJa?Nein?
In XML-Sitemap übertragen?
Manuell versuchter Crawl in den Google/Bing Webmaster Tools
Meta Robots: Noindex

Also insgesamt 9 Blogartikel 8 Blogartikel. 2³= 2×2×2 = 8.

Jeder dieser Blogartikel hatte eine der dargestellten Eigenschaften. Also zum Beispiel „In Sitemap übertragen JA, manuell versuchter Crawl in den Google/Bing Webmaster Tools NEIN, Meta Robots NOINDEX.

Weitere Inhalte ohne WordPress

Außerdem wollte ich Inhalte testen, die nicht direkt in WordPress veröffentlicht wurden – also nicht direkt auf der Startseite im klassischen Contentbereich verlinkt werden, nicht in Kategorien oder Tags mit Überschrift+Link, nicht mit Anrisstext und Artikelbild. Dazu habe ich getestet:

robots.txt Test: Statische InhalteJa?Nein?
In XML-Sitemap übertragen?
Manuell versuchter Crawl in den Google/Bing Webmaster Tools
Über die Header-Navigation verlinkt?

Auch hier sind es „nur“ 8 Inhalte, da 2³ = 8 Inhalte sind.

In diesen Fällen habe ich auf den Test des Robots Meta Tags „Noindex“ verzichtet, da der erste Test bereits aussagekräftig genug sein sollte. Abgesehen davon würde mir bei der Analyse ein Noindex nicht weiter helfen, da ich ja nicht leichter prüfen könnte, was eine Suchmaschine dann untersucht hat.

Dritter Test: Indexiert Google mithilfe von Google Analytics, Android oder Chrome Browser?

Der dritte Test umfasst nur zwei Seiten, die aber auf ihre Weise sehr interessant sind. In den beiden statischen HTML-Seiten (nicht-WordPress-Seiten) habe ich einen Google Analytics Trackingcode eingebunden. Diese beiden Seiten wurden weder in die XML Sitemap eingebunden, noch irgendwie anderweitig an Google oder Bing übermittelt oder verlinkt oder geshared. Die einzige Möglichkeit, dass Google diese Seiten berücksichtigt haben könnte ist durch Google Analytics, durch den Aufruf auf einem Android Device oder durch den Google Chrome Browser. Und das habe ich in diesem Zeitraum häufiger in unterschiedlicher Weise getan.

robots.txt Test: Statische Seiten mit Google Analytics Tracking CodeJa?Nein?
Google Analytics Code eingebunden und sonst nicht anderweitig absichtlich übertragen, verlinkt oder geshared

Abwarten, bis die robots.txt bei Google aktualisiert worden ist

Selbstverständlich wäre der Test gegenüber Google fahrlässig falsch, wenn man die Inhalte sofort online stellen würde, bevor Google die aktuelle robots.txt ausgelesen hat. Entsprechend habe ich keinen Artikel veröffentlicht oder online gestellt, bevor ich nicht per Google Webmastertools eindeutig sicher gehen konnte, dass sie die aktuelle robots.txt hatten.

Also habe ich die robots.txt-Datei wie ganz oben beschrieben und mit den geblockten Inhalten aktualisiert, sie in den Google Webmastertools erneut zugesendet, dort nochmal kurz rückversichert dass sie verifiziert wurde, die Artikel dann erst veröffentlicht und hochgeladen und anschließend manuell geprüft, ob die Seiten per robots.txt bei Google blockiert werden. Und das taten sie am Schluss alle.

Sekundärer Keyword-Test: Crawlt Google Inhalte, die verboten wurden?

Als sekundären Test habe ich in alle per robots.txt geblockten Inhalte – in alle – ein Keyword lautstark in einem dafür eigenen Absatz hinterlegt, das vor der Veröffentlichung exakt 0 Suchergebnisse bei Google aufweiste: „SoYusSEOBoostbyME“

Keyword-Test bei Google: SoYusSEOBoostbyME

Keyword-Test bei Google: SoYusSEOBoostbyME – Auch nach dem Test keine Ergebnisse

In dem Test wollte ich also exakt herausfinden, ob nach der Testlaufzeit ein Suchergebnis zu diesem „merkwürdigen“ Suchbegriff ausgegeben wird und ob das eines meiner geblockten Seiten sein würde. Das Keyword wurde präsent in den Artikeln eingebaut, aber nur so, dass sie nur auf diesen Seiten veröffentlicht wurden. Also nicht auf Tag-, Kategorieseiten oder anderen Seiten…

So konnte ich leicht feststellen, ob Google, Bing oder Yahoo! diesen Begriff tatsächlich gesehen hat. Und das ginge nur, wenn die Seite – trotz geblocktem Inhalt durch die robots.txt – trotzdem gecrawlt und als Suchabfrage ausgegeben worden wäre.

Und so viele Suchergebnisse wurden von meiner Seite nextlevelSEO.de dabei ausgeliefert:

Keyword „SoYusSEOBoostbyME“ gefunden?Anzahl gefundener Suchergebnisse
Google0
Bing2
Yahoo!2

Jetzt aber etwas detaillierter zu den Ergebnissen:

Gefailt: Facebook und Google+ crawlen die Inhalte

Was ich nach weniger als einer Stunde bis sechs Tage (auch heute nochmal getestet) nach der Veröffentlichung aller Inhalte – also relativ schnell bis relativ lange – feststellen konnte ist, dass sich Facebook und Google+ wohl nicht an die aktuelle robots.txt halten. Das ist in Teilen verständlich, denn die sind aus ihrer Natur heraus keine Bots oder Crawler im allgemein-technologischen Sinne.

Trotzdem etwas bedauerlich, denn eigentlich könnte man als Webmaster erwarten oder denken, dass Facebook und Google+ die geblockten Inhalte nicht überprüfen, wenn man ganz generell alles versucht per robots.txt auszusperren.

Screenshots dazu:

Facebook ignoriert die robots.txt komplett und übernimmt Title Tag, Artikel und Bild aus dem Artikel

Facebook ignoriert die robots.txt komplett und übernimmt Title Tag, Artikelinhalte und Bild aus dem Artikel

Google+ ignoriert die robots.txt und übernimmt Title Tag und Bild im Artikel

Google+ ignoriert die robots.txt und übernimmt Title Tag und Bild im Artikel

Lediglich Twitter hat den Inhalt nur verlinkt, so wie es sein sollte:

Durch robots.txt blockiert: Twitter liest den Inhalt des Artikels nicht aus

Durch robots.txt blockiert: Twitter liest den Inhalt des Artikels nicht aus

Will heißen: Facebook und Google+ halten sich nicht an die aktuelle robots.txt. Sie überprüfen sie nicht im Live-Betrieb.

Bing failt ebenfalls und crawlt verbotene Inhalte

Wie beschrieben, ist es allen Bots per robots.txt untersagt, die Artikel überhaupt zu „betreten“. Bing macht das offenbar nicht aus, obwohl ich per robots.txt gesagt habe, dass sie die Artikel nicht lesen dürfen.

Natürlich befinden sich darunter auch jene Artikel, die in der XML-Sitemap verlinkt wurden und deren Crawling ich persönlich und nur wenige Minuten nach der Veröffentlichung in den Bing Webmastertools angeordnet hatte. Und natürlich habe ich den folgenden Screenshot nach kurzer Zeit nach der Veröffentlichung aufgenommen. Aber das Stopp-Schild in der robots.txt wurde dennoch offenbar übersehen. Das gäbe trotzdem Punkte in Flensburg, mein Freund…

BingBot ignoriert die robots.txt

BingBot ignoriert die robots.txt

Abgesehen davon sind bis zum Montagabend, 20:00 Uhr, diese zwei Seiten in den Bing Index gelandet:

Bing Suchergebnis, obwohl die URLs per robots.txt gesperrt sind

Bing Suchergebnis mit zwei URLs und deren Inhalten (Title Tag und Ausschnitt des Contents), obwohl die URLs per robots.txt gesperrt sind. Screenshot vom Montag, 20:00 Uhr, 68 Stunden nach der Veröffentlichung der gesperrten Inhalte.

Lediglich die Google Suchergebnisse hielten sich von Anfang an optimal an die robots.txt

Google war die einzige der drei untersuchten klassischen Suchmaschinen, die der robots.txt-Datei stand hielt und keine Inhalte crawlte und dazu in den Index aufnahm.

Google Suchergebnisse bei gesperrten Inhalten durch die robots.txt

Google Suchergebnisse bei gesperrten Inhalten durch die robots.txt

Ich muss aber nochmal dazu erwähnen, damit es auch deutlich wird: → Unfairer Test gegenüber Bing und Yahoo!?

Gesamtauswertung #1: gesperrte Blogartikel

Die folgende Auswertung umfasste 8 Blogartikel, die in WordPress als ganz normale Artikel veröffentlicht wurden. Die Inhalte waren 6 Tage lang auf der Startseite per Artikelüberschrift verlinkt, so wie es jetzt andere Artikel sind (verlinkte Überschrift + Teaser).

Per robots.txt gesperrte Blogartikel in WordPress. Wie verhalten sich Suchmaschinen?

Per robots.txt gesperrte Blogartikel in WordPress. Wie verhalten sich Suchmaschinen? Wer indexiert trotzdem Inhalte? Eigene Auswertung (CC-BY 3.0 – darf gerne von euch verwendet werden!)

Wichtige Hinweise zur Tabelle
Farben:
Grün bedeutet „Ja“ bzw. „Ja, alles“, rot bedeutet „Nein“ bzw. „Nein alles“, gelb bedeutet „teilweise“.
Im Blog verlinkt: Der Artikel wurde direkt auf der Startseite, Tag-Seiten, Kategorieseiten verlinkt – bei Blogartikeln im Contentbereich, bei statischen HTML-Seiten (ab Gesamtauswertung #2) global im Hauptmenü
Manuell versuchter Crawl Google WMT: Wenn ja wurde versucht, die Seite in den Google Webmastertools als auch den Bing Webmastertools manuell zu crawlen. Google WMT hat natürlich einen Fehler ausgegeben, aber es wurde trotzdem versucht.
Im Index gelandet: per site:-Abfrage überprüft
Noindex berücksichtigt: Ist natürlich der Meta Tag robots <meta name=“robots“ content=“noindex“ />
Title verwendet: Wurde der Title Tag <title> verwendet? Wenn nicht, wurde in allen Fällen in den Suchergebnissen der jeweilige Verlinkungstext ausgegeben
Beschreibung = Seiteninhalt / Beschreibung ausgelesen: Wenn ja, wurde ein Text von der Webseite ausgelesen (egal ob Meta Description oder Content). Wenn nein, wurde der Standardfehler ausgegeben „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar. Weitere Informationen“
Bild verwendet: Wenn ja, wurde entweder das Artikelbild oder irgendein anderes Bild dieser Unterseite ausgelesen und verwendet.
Diese Hinweise beziehen sich natürlich auch auf die zwei folgenden Auswertungen!

Gesamtauswertung #2: statischer HTML-Seiten

Diese Auswertung umfasst 8 statische HTML-Seiten, die ich im Unterordner hochgeladen hatte. Sie wurden nicht als „Seiten“ im WordPress angelegt, sondern als wirklich separate HTML-Seiten und entsprechen nur dem Layout und Design von nBlogs. Es wurden alle Javascripte und der komplette <head>-Bereich so geleert, dass sie nur noch einen Title und das CSS hatten.

Per robots.txt gesperrte statische Inhalte, die nur im Hauptmenü verlinkt wurden.

Per robots.txt gesperrte statische Inhalte, die nur im Hauptmenü verlinkt wurden. Wie verhalten sich Suchmaschinen? Wer indexiert trotzdem die Seiten? Eigene Auswertung (CC-BY 3.0 – darf gerne von euch verwendet werden!)

*URL = Google hat im Suchsnippet als Überschrift die URL verwendet – also keine Überschrift, aber auch keinen Verlinkungstext übernommen (den es sowieso nicht gab). Aber trotzdem landete die Seite im Index.

Gesamtauswertung #3: nicht verlinkte Seiten mit Google Analytics Tracking Code

Wie in Auswertung #2 sind auch diese Seiten manuell per HTML angelegt worden. Allerdings wurden sie nirgends verlinkt noch geshared. Die einzige Möglichkeit zur Indexierung wären gewesen: Google Android, Google Chrome Browser oder Google Analytics Code. Die Seiten wurden natürlich mehrmals in der Woche manuell normal, über Proxies und sogar das TOR Netzwerk aufgerufen. Zumindest Google Analytics hat die Besucher auf den Seiten erkannt. Die Auswertung sagt trotzdem:

Per robots.txt gesperrte statische HTML-Seiten, die einen Google Analytics Trackingcode eingebaut hatten

Per robots.txt gesperrte statische HTML-Seiten, die einen Google Analytics Trackingcode eingebaut hatten. Hat Google die Inhalte aufgenommen und indexiert? Eigene Auswertung (CC-BY 3.0 – darf gerne von euch verwendet werden!)

Fazit: Google hält sich an die robots.txt!

Anhand meiner Tests kann ich nicht feststellen, dass Google als Google gesperrte Inhalte tatsächlich ausliest. Google scheint die robots.txt also zu respektieren und betritt die gesperrten Seiten nicht.

Anders als die Social Media Plattform Google+, aber auch Facebook. Hier reicht ein Share und die Seite wird plötzlich untersucht. Komme was wolle. Nur Twitter ist hier unter den drei Social Media Größen zu loben.

Und dass Bing und Yahoo! die Inhalte gecrawlt haben, da will ich ein Auge zudrücken. Denn:

Kleiner Sitekick zum Fazit: Unfairer Test gegenüber Bing und Yahoo!?

Leider habe ich keine Möglichkeit gefunden, auch Bing in deren Webmastertools rechtzeitig über die aktuelle robots.txt bescheid zu geben. Dass ich die veröffentlichten Inhalte via Änderungen mit den XML Sitemaps als auch zum Auftrag des direkten Crawls nach weniger als 60 Minuten sowohl in die Google- als auch Bing-Webmastertools geknallt habe, ist etwas unfair gegenüber Bing als auch Yahoo!. Denn ich habe ihnen (speziell jetzt Bing, aber auch Yahoo!) ja den Auftrag gegeben, die Seiten zu crawlen, bevor sie die aktuelle robots.txt hatten – im Gegensatz zu Google, wo ich explizit auf die Aktualisierung in den Webmastertools gewartet hatte.

Es ist also etwas unfair, das gebe ich zu.

Auf der anderen Seite ging es mir primär nur um Google und wie sie die robots.txt berücksichtigen. Bing und Yahoo! waren von Anfang an nur als Zuckerle, also als Bonus zur Statistik gedacht. Und dafür sind die Ergebnisse echt gut, dass sie nur jeweils 2 Artikel real gecrawlt haben nach doch so kurzer Zeit. 🙂

19 Comments

  1. … Super Artikel und Statistik. Das wollte ich schon immer mal genauer wissen, doch meist fehlt mir persönlich für solche Tests die Zeit. Vielen Dank.

  2. Du hast ein echt schönen Blog man sieht sofort viel Leidenschaft darin. ich wünsche dir weiterhin viel Erfolg.
    Eine Frage hab ich aber doch noch wie lange hast du für das alles gebraucht inkl. Beitrag… 🙂

  3. Hallo Pascal,

    wirklich gute und vor allem interessante Case Study!
    Ich denke der Zusatz im Fazit ist wirklich zu verzeihen, da die Ergebnisse von Google wohl am interessantesten sind. Zumindest für mich 😉

    Beste Grüße
    Philipp-Malte

  4. Klasse Artikel! Da hast du mir wirklich weitergeholfen und ich muss einer meiner Falschaussagen gegen Kunden revidieren (auch wenn es eh keiner gemerkt hat)… Danke für deine Arbeit. Solche Tests können ganz schön Zeitraubend sein =)

    Grüße,
    Chris

  5. Hey Pascal,

    du hast mit deiner Andeutung zu diesem Artikel nicht zu viel versprochen. Sehr interessante Ergebnisse so aufbereitet, dass man sie auch als nicht SEOler versteht. Danke dafür. 😉

    Viele Grüße, Daniel.

    1. Hallo Christian,

      nein, nur 4 der Blogartikel und eine der speziellen HTML-Seiten waren auf Noindex gestellt. Steht in den Tabellen, welche was hatten.

      Schöne Grüße

      Pascal

  6. „Disallow: /?p=5363“ – müsstest du nicht eigentlich auch die „nice-url“ (mod rewrite) in die robots.txt aufnehmen? immerhin ist die nice-url in den screenshots zu sehen und ich kann mir vorstellen, dass das einen unterschied macht, kann das sein?

    1. Hallo Kwentin,

      die Nice URLs begannen alle mit
      /liest-google-per-robots-txt-gesperrte-inhalte-aus
      , da reicht dann 1× das Aussschließen. Die robots.txt arbeitet ja sozusagen mit „wenn beginnt mit“ und nicht Exact Match.

      In den Google Webmastertools hatte ich beim robots.txt Tester mich rückversichert, ob die URLs (Short und Nice, vor und nach Veröffentlichung) gesperrt waren. Und das waren sie. 😉

  7. Hmm… realisiere jetzt gerade erst richtig, dass es dann scheiße schwer ist, unter Einsatz eines CMS einen Inhalt zu veröffentlichen (wie etwa einen Blogartikel unter WordPress), der sowohl nicht gecrawlt werden als auch nicht in den Index aufgenommen werden soll. Dann dürfte der Artikel nirgends verlinkt sein. Oder alle verlinkten Seiten müssten ebenfalls per robots.txt ausgesperrt werden.

    Wenn man sowas überhaupt möchte, wäre das dann ganz schön blöd…

  8. Pingback: Zukunftsforschung und Analysen im Spannungsfeld von Medien, Technik und Wirtschaft

  9. Hallo Pascal,

    das ist ein tolles Experiment!

    Zu Gesamtauswertung #3 noch eine Frage: Ich sehe mich dadurch in meiner Meinung bestätigt, dass Google Chrome und Google Analytics nicht zu Rankingzwecken eingesetzt werden – sonst würde ich hier eine Indexierung erwarten. Der Punkt ist mir wichtig, weil viele bekanntere SEOs schon öffentlich behauptet haben, dass Usersignale aus Chrome und Analytics genutzt würden. Das geht so weit, dass sogar behauptet wird, dass ein Link nur zum Ranking genutzt würde, wenn Menschen ihn anklicken. Google könnte das aber nur über Analytics der Referrer-Seite oder Analytics der Zielseite tracken. Solche Geschichten werden dann auch vor fachfremdem Publikum (z.B. auf der Internet World Messe) als Fakten verkauft, was mich irgendwie erstaunt.

    Ich habe dazu in verschiedenen Experimenten – jetzt auch in deinem – bisher keine Anzeichen dafür gefunden. Was meinst du dazu – interpretiere ich mit dieser Schlussfolgerung zu viel in dein Ergebnis? Wie oft genau wurden die beiden Seiten über Chrome aufgerufen, wie waren die Metriken wie Bounce-Rate und Verweildauer in Analytics?

    Schöne Grüße
    Thomas

    1. Hallo Thomas,

      das ist ein schwieriges Thema. Zum Einen ist der Test nicht wirklich aussagekräftig, da es sich doch nur um zwei Seiten gehandelt hat. Zum Anderen hat Google die Seiten nicht aktiv gecrawlt und in Kombination damit, dass Google keine Überschrift zur Seite interpretieren konnte (wie ein Verlinkungstext), ist die Nichtaufnahme nachvollziehbar.

      Ich denke, dass es „naiv“ wäre, wenn Google die Daten (z. B. beim Teilen auf Google+ trotz Sperrung) nicht doch irgendwie intern als Datenkrake verwertet. Als Rankingfaktor oder oder dass z. B. Analytics-Aufrufe anderweitig indirekt Auswirkungen haben können, bestätigt dieser Test nicht und ist auch nur sehr schwer in einem Test nachzuvollziehen.

      Von dem her würde ich sagen: Alles kann, nichts muss. =)

      Schöne Grüße

      Pascal

  10. Hallo Pascal,

    zunächst einmal ein riesen Lob für die Auswertung, das sind echt sehr interessante Erkenntnisse, wenn auch etwas ernüchternd. Eine Frage hätte ich da aber noch und zwar zu Abbildung „BingBot ignoriert die robots.txt“. Von welchem Tool stammt der Screenshot bzw. wie hast du die ganze Bot Tracking Geschichte im Auge behalten?

  11. Pingback: Der SEO-Blog-Wochenrückblick KW 15

  12. Ich muss nochmal einen Comment da lassen und eine Lanze für Bing und Yahoo! brechen, obwohl es im Artikel an den kritischen Stellen immer wieder – wie etwa mit der Notiz „Quicklink: Unfairer Test gegenüber Bing und Yahoo!?“ – verlinkt wird:
    http://nextlevelseo.de/seo-test-google-robots-txt-gesperrte-inhalte-5422/#fazitbing

    Ja, Bing und Yahoo! haben jeweils zwei URLs direkt gecrawlt. Das bedeutet nicht automatisch, dass sich Bing und Yahoo! nicht an die robots.txt halten.

    Ich habe in den Google Webmastertools abgewartet, bis Google die neue, aktualisierte robots.txt hatte. Das war bei Bing und Yahoo! nicht der Fall. Es kann durchaus sein, dass Bing und Yahoo! die Seiten zu einem so frühen Zeitpunkt gecrawlt hatten, als sie die robots.txt nicht neu überprüft hatten. Deswegen „verzeihe“ ich es den beiden Suchmaschinen, dass sie die URLs gecrawlt haben.

    Aber per se zu sagen, die beiden Suchmaschinen würden sich generell nicht oder nur nach Lust und Laune an die robots.txt halten, diese Aussage war nicht mein Ziel und wurde bereits zu häufig fehlinterpretiert und fehlinterpretiert weiter geshared. Und falls das von dir als Leser direkt so aufgenommen wurde, möchte ich mich für diesen „kleinen“ Fauxpas recht herzlich entschuldigen.

    Alle anderen Ergebnisse bleiben natürlich richtig. Ganz auf einen Satz komprimiert könnte man sagen: Alle untersuchten Suchmaschinen (Google, Bing und Yahoo!) nehmen auch gesperrte Seiten in den Index auf, sobald sie eine potentielle „Überschrift“ finden, wie etwa / vor allem einen Verlinkungstext von einer Unterseite zur gesperrten Seite.

    Schöne Grüße

    Pascal 🙂

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *