Bonus: Indexierung und Google-Bot – SEO für Dummies

Der folgende Text ist Teil eines SEO-Academy-Projekts, das ich in 2015 gestartet, aber niemals beendet habe. Jetzt ist er Teil des Bonusmaterials zum Academy Kurs SEO für PC-Anwender.

Angesichts der Tatsache, dass ich – obwohl es bereits 2015 ist – immernoch von Leuten (das inkludiert sogar echte Onliner) gefragt werde, was es denn mit diesem SEO auf sich hat und was sie da noch alles falsch machen, hier mal ein paar Basics in Sachen SEO, die helfen sollen die Fundamente der Optimierung zu verstehen.

In der heutigen Märchenstunde geht es darum zu verstehen, warum Google manche Webseiten kennt und manche Webseiten nicht kennt und somit gar nicht erst in ihre Sucherergebnisse aufnimmt.
Ich werde dabei permanent sehr simple Vergleiche nutzen (hier: einen Hund) – die Transferleistung liegt darin das Ganze später wieder auf die eigentlich Systemkomponenten zurückzuführen.

Die Themen sind damit folgende

  • Indexierung durch den Google Bot
  • Hyperlinks und Indexierung von Unterseiten
  • Verbote von Indexierung: robots.txt und robots-Meta-Tag
  • Initiale Indexierung durch externe Links

Der Google-Bot / Crawler

Der Google-Bot ist ein Computer-Programm, das der Suchmaschinen-Riese vor einigen Jahren entwickelt hat, um sich jede Seite des Webs mindestens einmal voll-automatisiert anschauen zu können. Das klingt auf den ersten Blick erst einmal viel, ist es aber gar nicht, wenn man davon ausgeht, dass die durchschnittliche Website nur ein paar KB, bestehend aus Text und ein paar Bildern ist.
Stellt euch den Google-Bot einfach als einen sehr sehr neugierigen Hund vor, der nichts besseres zutun hat, als den ganzen Tag herumzulaufen und an verschiedenen Orten an Dingen zu riechen. In dieser Analogie sind die Gerüche der Inhalt eurer Web-Unterseiten und die Orte an denen die verschiedenen Gerüche haften sind die URLs dieser Unterseiten. Also lassen wir es uns nochmal zusammenfassen:

  • Google-Bot = sehr sehr neugieriger Hund
  • Inhalt einer Website = Geruch
  • Ort des Geruchs = URL

Dieser Hund läuft also den ganzen Tag durch ein Haus, riecht an allem, was ihm in die Quere kommt, speichert den Geruch in seinem Gehirn ab (ohne zu wissen, was er damit machen soll) und zieht weiter zum nächsten Ort, wo er etwas Interessantes vermutet.

In der technisches Welt des Google-Bots sieht das also wie folgt aus: Der Crawler zieht von einer Unterseite zur nächsten, speichert das HTML der Websites auf einem oder 1000 verschiedenen Server ab und zieht weiter! Was in diesen Seiten steht, ist ihm erstmal völlig egal. Er ist ja nicht wissensdurstig, sondern nur neugierig. Mit der Ausnahme von einem Element: Dem Hyperlink!

Hyperlinks und interne Indexierung

Der eben beschriebene Hund hat übrigens keine Landkarte oder ein besonderes Bestreben alle Räume des Hauses gesehen zu haben. Er verlässt seinen aktuellen Ort nur, wenn er vermutet, dass ihn am neuen Ort ein weiterer interessanter Geruch erwartet. Er braucht also sozusagen eine Fährte, die ihn zum nächsten Ort führt.
Auch der Google-Bot brauch permanent neuen Fährten, damit er sich weiter bei euch auf der Website umschaut. Für eine Maschine wie ihn ist das der Hyperlink, oder wie wir ihn heutzutage auch nur noch nennen: Link. In HTML sieht ein Link wie folgt aus:

<a href=http://internetzkidz.de/e-commerce/” target=”_blank”>E-Commerce-Kategorie</a>

Der Google-Bot riecht nun also den Inhalt des href-Attributes und besucht diese Seite ganz brav als nächstes.

Für Websites bedeutet das Folgendes: Wenn ihr möchtet, dass Google alle eure Seiten mit den besten Inhalten kennt, dann müsst ihr dem Bot auf allen oder einer wichtigen Unterseiten Fährten legen, damit er auch vorbeischauen kann und entsprechende Links setzen. Egal ob in der Navigation, dem Fließtext, hinter Bildern, oder im Footer. Wenn im HTML, das der Googlebot speichert, kein Link zu finden ist, dann läuft er in eine Sackgasse – was er nicht gerne tut. In den meisten Fällen vermutet er nämlich, das sein Meister (in seinem Fall der User) da auch tun würde und nicht glücklich damit wäre auf einer Unterseite ohne Ausweg gefangen zu sein.

Aus! Pfui! /robots.txt und robots-Meta-Tags

Jetzt gibt es auch einige Orte im Haus, die ein neugieriger Hund lieber nicht besuchen sollte. In vielen Fällen ist das Sofa, Schlafzimmer oder die Küche. Jedes Mal, wenn der Hund in die Nähe dieser Orte kommt, hört man entweder ein “Aus!” oder “Pfui” aus dem Hintergrund. Oder aber manche Leute schaffen es gar so weit, dass Sie ihren Hunden im Vorfeld verklickern, dass die Küche immer “Pfui” sein wird. Für den Umgang mit dem Google-Bot gibt es beide Möglichkeiten ihn von Orten fernzuhalten, wo er nichts zu suchen hat:

Die Orte, die auf Webseiten oder Online-Shops für gewöhnlich kein Google-Bot sehen darf, sind meistens die die auch kein User in den Suchergebnissen sehen soll. Dazu gehören:

  • Unterverzeichnisse auf denen Experimente gemacht werden
  • Checkout- und Warenkorb-Seiten
  • Duplikate von Seiten (die z.B. über einen Parameter erreichbar sind ?id=122334)
  • System-Dateien, in denen Dinge wie Templates o.ä. gespeichert werden

Die erste Möglichkeit wie verhindert wird, dass der Google-Bot diese Orte betritt ist der Zuruf “Aus! Pfui!”, wenn er bereits vor den Orten steht. Dieser Ansatz ist die Vergabe eines robots-Meta-Tags im <head> der Seite. Dieses sieht wie folgt aus:

<meta name=”robots” content=”noindex, nofollow” />

Dies signalisiert dem Bot, dass er auf der Seite nichts zu suchen hat und alles was er gesehen hat, nicht auf den Server speichert (noindex). Der zweite Teil sagt dem Bot, dass er auch den Links, die er bereits auf der Seite gefunden hat nicht weiter folgen darf. Wenn das Tag wie folgt aussieht:

<meta name=”robots” content=”noindex, follow” />

heißt das immernoch, dass die Seite nicht gespeichert werden soll. Dafür darf der Bot aber die Seiten ansteuern, die auf der Seite verlinkt wurden.

Um dem Google-Bot die Speicherung einer Seite zu verbieten, ohne dass er sie gesehen hat, gibt es eine einfach pädagogische Maßnahme: Die robots.txt einer Website! In einem Standard, der vor einigen Jahren von allen Suchmaschinenbetreibern verabschiedet wurde, wurde festgelegt, dass jede Website unter einer festgelegten URL einem Bot verbieten kann spezifische Unterseiten oder gar ganze Unterordner zu speichern. D.h. wenn der Bot die Seite einer Domain besucht, z.B. example.com/unterseite.html, schaut er auch immer gleichzeitig an diesen Ort, um sich zu vergewissern, ob er die Seite abspeichern darf. Dieser Ort ist für jede Website unter folgender URL aufrufbar: example.com/robots.txt. Die Endung “.txt” verrät dabei schon, dass es sich um eine ganz einfache Textdatei, ähnlich wie .docx handelt. Mein robots.txt-File ist entsprechend hier zu finden: internetzkidz.de/robots.txt . Aber auch jede andere große Seite hat eine robots.txt. Wer Interesse hat kann sich gerne mal ein paar anschauen:
facebook.com/robots.txt
google.com/robots.txt
de.wikipedia.org/robots.txt

Damit das, was da drin steht, nicht allzu kryptisch für euch aussieht habe ich es euch mal mit unserer aktuellen Analogie übersetzt:

User-agent: *
Disallow: /wp-admin/
User-agent: Google-Bot
Disallow: /wp-content/

Dies gilt für: Alle Hunde
Aus! Pfui!: /privates-Arbeitszimmer/
Dies gilt für: Google-Hund
Aus Pfui: /computer-zimmer/

Vorsicht ist geboten, wenn ihr eure Seiten zur Vefügung stellen wollt, aber in euren robots.txt etwas steht wie:

Disallow: /

Übersetzt bedeutet das nämlich folgendes: Bitte betritt mein Haus bloß nicht!

Das brisante an diesen Seiten ist, dass man hin und wieder auch Unterverzeichnisse findet, die Experimente in Form von nicht veröffentlichten Produkten findet. Jetzt nicht zwangsläufig für diese Anbieter, aber in der Vergangenheit soll vor allem dell.com hier ein Maleur passiert sein. Daher: Wenn ihr etwas wichtiges zu verbergen habt: Packt immer ein Passwort davor. Das wirkt auch für einen Crawler wie den Google-Bot. In unserer Hunde-Analogie wirkt das nämlich wie eine verschlossene Tür vor einem Raum – egal wie stark die Fährte bereits riecht, der Hund wird den Raum nicht besuchen können.

Der Google-Bot kommt nicht bei mir vorbei / Keine Seite in den Suchergebnissen

Es gibt Fälle in denen der Entwickler einer Website alle oben genannten Prinzipien verstanden und umgesetzt hat und immernoch das Problem hat, dass keine seiner Seiten in den Suchergebnissen auftaucht. Übertragen auf unser Beispiel mit dem Hund würde das bedeuten, dass der Hund euer Haus noch gar nicht gesehen hat. Dieses Problem ist verwandt mit dem Fährten-Problem, das der Hund hat, wenn er von Raum zu Raum läuft. Wenn es keine Fährte zum nächsten Raum in Form eines Hyperlinks gibt, wird der Hund nicht in diese Richtung laufen. Und wenn vor eurer Haustür (z.B. eurer Startseite) keine Fährte liegt, wird der Google-Bot auch nie dort vorbei kommen.

In der Web-Welt bedeutet das, dass ich auch auf den Webseiten anderer Unternehmen oder Personen Hyperlinks zu meiner Domain hinterlassen muss. Wenn ich also mit einer neuen Domain an den Start gehe, ist es hilfreich den ein oder anderen Link zu streuen. In der Vergangenheit haben viele Leute dazu Google+ verwendet, weil der Google-Bot diese Seiten – so die Legende – immer einmal angeschaut hat bevor der Post veröffentlich wurde. Generell ist egal wo der Link steht, hauptsache die Seite, die den Link beherbergt, ist ohne Login erreichbar.

Fazit: Wie findet Google alle meine Seiten?

Zusammefassend bedeutet dies also, dass Website-Betreiber auf folgende Dinge Rücksicht nehmen müssen, wenn Sie möchten, dass all ihre wichtigen Unterseiten gefunden werden sollen. Es sollte sichergestellt werden, dass Google zumindest die Startseite kennt, was durch einen externen Link aus einem Branchenbuch oder ähnlichem gewährleistet werden kann. Damit alle Seiten von der Startseite, über die Kategorie-Seite bis hin zur Produkt-Seite irgendwann in den Suchergebnissen auftauchen können ist es wichtig, dass die Seiten irgendwo auf der eigenen Domain mal verlinkt wurden (Fährte). Es gibt einige Seiten, die der Bot unter Umständen nicht abspeichern soll. Diese werden durch die robots.txt oder die robots-Meta-Tags (“Aus! Pfui!) gekennzeichnet.

Der Artikel “Indexierung und Google-Bot: SEO für Dummies Teil 1” erscheint als Teil einer Reihe von Beiträgen, die SEO-Newbies und -Noobs die Prozesse in der Suchmaschine näherbringen sollen. In weiteren Teilen lest ihr:

SEO für PC Anwender – der Kurs

Wenn du nach Fortbildung im Bereich SEO suchst, kann ich dir den internetzkidz Kurs SEO für PC-Anwender empfehlen. Der 8-Lektionen-Kurs ist Teil der internetzkidz-Academy.