morefire
MENÜ

Crawling und Indexierung von Webseiten: Theorie und Praxis

Durch Crawling und die Indexierung werden Webseiten im Index der Suchmaschine aufgenommen und haben so die Möglichkeit, auf den Suchergebnissseiten (SERPs) zu ranken. Bei der Erstellung und Optimierung von Webseiten muss demnach, sofern die Seiten in den organischen Suchergebnissen erscheinen sollen, darauf geachtet werden, dass diese gut gecrawlt werden können. So stellst Du sicher, dass alle relevanten Inhalte der Webseite im Index der Suchmaschinen landen. Grundsätzlich kann ein Webcrawler nur Inhalte indexieren, die er auch finden kann. Deswegen sollte eine Seite immer eine möglichst flache Hierarchie und eine durchdachte interne Verlinkung aufweisen. Setze Dich intensiv mit dem Thema Crawling und Indexierung auseinander, um die Suchmaschinen bestmöglich mit relevanten Inhalten zu füttern. Mit diesem Blogartikel helfen wir Dir dabei.

Inhalt

 

Was bedeutet Crawling?

Als Crawling wird im die Identifizierung von öffentlich zugänglichen Webseiten durch spezielle Software verstanden. Einer der bekanntesten Crawler – oder auch Bot genannt – ist der Googlebot, der für die Suchmaschine Google das Internet nach allen verfügbaren Seiten durchsucht. Dazu ruft ein Crawler Webseiten auf und folgt allen internen und externen Verlinkungen, um möglichst viele Seiten zu indexieren. Um den Inhalt und die Verlinkungen auf der Seite zu finden, liest der Webcrawler den Quellcode der Seite aus. Ist eine Webseite passwortgeschützt oder gibt sie eine Fehlerseite aus, dann ist sie für den Crawler nicht zugänglich und der Quellcode wird nicht ausgelesen. Eine solche Seite wird nicht in den Index aufgenommen.

 

„Fängt ja schon damit an beim Crawling, das ist praktisch das Eintrittstor in den Google Index.“
Rene Dhemant

 

Was bedeutet Indexierung?

Die durch das Crawling erfassten Daten werden von Suchmaschinenbetreibern indexiert und damit den Suchmaschinen zur Verfügung gestellt. Der Index ist hierbei die Speicherung aller gecrawlten Seiten, die nicht von den Webseitenbetreibern ausgeschlossen wurden bzw. von den Suchmaschinen als irrelevant betrachtet werden. Der Index bildet die Datengrundlage, auf die bei einer Suchanfrage durch einen Nutzer zurückgegriffen wird.

Diese Suchanfrage setzt dann einen komplexen Algorithmus in Gang, um die bestmöglichen Ergebnisse ausliefern zu können. Die Reihenfolge dieser Ergebnisse wird dann als Ranking bezeichnet. Welche Webseite an Position 1 der organischen Ergebnisse steht wird durch unterschiedliche Ranking-Faktoren bestimmt.

Sowohl der Aspekt des Crawlings als auch die Indexierung gehören dem Bereich der technischen SEO an.

Wie finde ich heraus, ob meine Seite indexiert ist?

Wird auf der Webseite eine neue Unterseite angelegt, so ist das Bestreben in den meisten Fällen, dass diese von Nutzern und Nutzerinnen über die Suchmaschinen gefunden wird. Wie wir nun bereits wissen, muss die Seite dafür gecrawlt und indexiert werden. Ob dies geglückt ist, lässt sich durch die Site-Abfrage oder die Google Search Console einfach herausfinden.

Site-Abfrage

Im Suchfeld der Suchmaschinen hast Du durch die Eingabe sogenannter Suchoperatoren die Möglichkeit, die Suchergebnisse zu filtern. Diese werden direkt im Suchfeld zusammen mit Deiner Suchanfrage eingegeben. “Site” ist ein solcher Suchoperator, der Dir hilft, die Indexierung deiner Webseiter oder spezifischer URLs zu untersuchen. Gebe hierfür einfach “site:www.domain.com” in das Suchfeld ein, um Dir alle indexierten Seiten ausgeben zu lassen oder teste mit “site:https://www.domain.com/unterseite” eine spezifische Unterseite. Erscheint die Seite in den Suchergebnissen, so wurde sie gecrawlt und indexiert.
Bild: site-abfrage.png

Wie es Google bereits in der Site-Abfrage vorschlägt, kann die Indexierung auch über die Search Console überprüft werden. Voraussetzung ist hier jedoch, dass Du Zugriff zu der Website-Property hast. Im Suchfeld der Google Search Console kannst du dann einzelne URLs prüfen. Im Abdeckungsbericht findest Du sämtliche Informationen zum Crawling und der Indexierung der Seite:

Können Seiten aus dem Index fliegen?

Wurde eine URL in den Index der Suchmaschine aufgenommen, so stellt dies keine Garantie dar, dass sie dort auch bleibt. Verschiedene Faktoren können dazu führen, dass Seiten wieder aus dem Index entfernt werden:
Passwortgeschützt: Wurde der Zugang zur Seite durch ein Passwort geblockt, so kann diese Seite nicht mehr gecrawlt werden. Eine Seite, die weder für den Crawler, noch für NutzerInnen zugänglich ist, wird aus dem Index entfernt.
Statuscodes 4xx & 5xx: Ist eine Seite durch einen Fehler (Client-Fehler 4xx oder Server-Error 5xx) nicht mehr auffindbar bzw. aufrufbar, so wird diese auf kurz oder lang aus dem Index entfernt. Handelt es sich hierbei um wichtige Seiten, sollten diese bestmöglich durch den Statuscode 301 weitergeleitet werden, um Rankingsverluste zu vermeiden.
Noindex: Hat der Webseitenbetreiber auf der Seite das Meta Robots Tag “noindex” im Quellcode hinterlegt, weist er hiermit die Suchmaschine darauf hin, dass diese Seite aus dem Index entfernt werden soll. Ist dieser Text von Anfang an hinterlegt, wird die Seite gar nicht erst in den Index aufgenommen.
Verstoß gegen Webmaster Guidelines: Zu guter Letzt ahndet z.B. Google Verstöße einer Seite gegen ihre Webmaster Guidelines mit einem Ausschluss dieser aus dem Index.

Zurück nach oben

 

Was versteht man unter Crawl-Budget & Index-Budget?

Für Internetauftritte mit wenigen Seiten und/oder Webseiten, deren URLs ohnehin in der Regel am ersten Tag indexiert werden, ist das Thema Crawl-Budget nur untergeordnet wichtig. Für große Seiten mit mehreren Tausend URLs ist es hingegen wichtig, das Crawl-Budget zu optimieren. Doch was versteht man unter einem Crawl-Budget und was ist eigentlich die Crawling-Frequenz oder der Crawling-Bedarf?
Vereinfacht gesagt handelt es sich beim Crawl-Budget um die Anzahl der URLs, die der Bot auf einer Seite crawlen kann und crawlen will. Dieses Budget setzt sich aus der Crawling-Frequenz (Können) und dem Crawling-Bedarf (Wollen) zusammen.

Unter der Crawling-Frequenz versteht man die Anzahl der Anfragen pro Sekunde, die der Bot während des Crawlings auf einer Seite ausführt. Hierbei gilt: Je schneller die Ladezeit ist und je weniger Serverfehler vorhanden sind, desto höher ist die Frequenz. Eine technische Optimierung der Seite wirkt sich somit klar positiv auf die Crawling-Frequenz aus.
Suchmaschinen-Bots crawlen bevorzugt Seiten, die beliebt sind. Die Beliebtheit wird hier durch eine Reihe von Faktoren wie Verlinkung, Aufenthaltsdauer und Absprungrate bestimmt. Seiten, die als weniger beliebt und/oder veraltet eingestuft werden, werden seltener oder gar nicht gecrawlt.

Der Crawling-Bedarf ist also ein Wert, der einschätzt wie wichtig es für einzelne Seiten ist, regelmäßig gecrawlt zu werden oder eben nicht. Seiten mit geringem Mehrwert wirken sich negativ auf Crawling und Indexierung aus, wodurch gute Inhalte erst später gefunden werden. Geringer Mehrwert bedeutet im Einzelnen: Duplicate Content, Soft-404-Fehler oder Spam. Es ist also eine komplexe Optimierung von verschiedenen Faktoren erforderlich, um an beiden Stellschrauben zu drehen. Nur so kann gewährleistet werden, dass alle Seiten, die indexiert werden sollen, auch gecrawlt werden können.

Und Vorsicht! Auch Crawl-Budget ist irgendwann aufgebraucht. Es kann durch Relaunches, Änderung der URL-Struktur oder Weiterleitungsketten belastet werden. Dies führt nämlich dazu, dass URLs einer Webseite immer wieder neu gecrawlt werden müssen. Ist das Crawl-Budget aufgebraucht, kann dies dazu führen, dass wichtige Seiten nicht gecrawlt und dadurch nicht im Index der Suchmaschine aufgenommen werden, ergo auch von Nutzern und Nutzerinnen nicht gefunden werden.

Das Crawl-Budget wird von dem Index-Budget unterschieden. Letzteres bezieht sich auf die Anzahl der Seiten einer einzigen Domain, die im Index der Suchmaschinen aufgenommen werden. Auch diese Anzahl ist limitiert und nur die URLs, die regelmäßig gecrawlt werden, haben die Möglichkeit, auch im Index zu bleiben.
Du willst noch tiefer in die Thematik eintauchen? Rene Dhemant gibt in unserem morefire Kneipentalk Einblick in die Themen Crawl-Budget und Indexing.

 

Wie wichtig sind Crawling & die Indexierung in der Suchmaschinenoptimierung?

Die Suchmaschinenoptimierung hat das Ziel, eine Seite so zu optimieren, dass sie für bestimmte Keywords bestenfalls auf Position 1 der Suchergebnissseite landet. Grundbaustein solcher Optimierungen ist, dass die Seite gecrawlt und indexiert werden kann. Als SEO musst Du demnach immer auch die Crawlbarkeit der Webseite beachten und mögliche Schwachstellen identifizieren können, um eine Indexierung der Seite nicht zu gefährden. Für SEOs ist es vor allem wichtig, den Crawler so zu steuern, dass alle relevanten Seiten gefunden und indexiert werden können. Sind Seiten weniger relevant oder verursachen Duplicate Content, so kann der Webcrawler über verschiedene Wege darauf hingewiesen werden.


Du willst mehr zum Thema SEO erfahren? Dann findest du hier unsere SEO-Tipps!


Wie kann ich das Crawling & die Indexierung meiner Webseite steuern?

Neben passiven Einflüssen wie der Seitenperformance (Ladegeschwindigkeit, Serverfehler etc.), hat ein Webmaster die Möglichkeit, das Crawling aktiv zu steuern und somit die Indexierung zu beeinflussen. Dies geht auf sehr verschiedene Arten und Weisen.

Crawling-Steuerung durch die Robots.txt

Mithilfe einer robots.txt, die immer im Root-Verzeichnis einer Domain (www.beispiel.de/robots.txt) liegen muss, kann man Crawlern verschiedene Anweisungen geben:
Einzelne Crawler von der ganzen Seite oder einzelnen Verzeichnissen ausschließen
Einen Verweis auf die Adresse einer oder mehrerer XML-Sitemaps geben
Die Befehle einer robots.txt sind nur eine Empfehlung und werden nicht zwingend von Suchmaschinen berücksichtigt. Ausführliche Informationen zu den Möglichkeiten einer robots.txt findet Ihr unter: robots.txt – Was ist das und wie wende ich diese an?

Indexierung verhindern durch Noindex

Der Meta-Tag „noindex“ wird entweder im Bereich einer Seite implementiert, was wie folgt aussieht:oder kann im HTTP-Header als Antwort zurückgegeben werden. Es wird Crawling-Budget verbraucht, wenn eine solche Seite aufgerufen wird, jedoch wird die Seite nicht indexiert. Die noindex-Anweisung ist verbindlich, das heißt, die Seite wird nach dem nächsten Crawling aus dem Index der Suchmaschinen genommen. Nützlich sind solche Tags beispielsweise bei folgenden Seiten:

  • URLs mit Parametern durch z.B. Filterfunktionen
  • Suchergebnisseiten

Indexierung steuern durch Canonicals

Anders als die noindex-Anweisung sind Canonicals nicht bindend für Suchmaschinen, das heißt es gibt keine Garantie, dass Suchmaschinen den Empfehlungen folgen.
Canonicals sehen wie folgt aus: und werden ebenfalls im Header einer Seite implementiert.
Canonicals unterscheiden sich insofern von noindex-Anweisung, als dass es hier nicht darum geht, eine Seite aus dem Index zu nehmen, sondern man spricht eine Empfehlung aus, welche URL anstelle der gerade aufgerufenen Seite indexiert werden soll.
Dies ist zum Beispiel praktisch bei einem Online Shop, wenn durch Filterfunktionen Duplicate Content von Kategorie-Seiten entsteht. Mehr zum Canonical Tag gibt es auch in unserem morefire Blogartikel Das Canonical Tag nachzulesen!

Crawling-Steuerung über die Search Console

In der Search Console kann man beispielsweise URL-Parameter ausschließen und die Crawling-Frequenz reduzieren.
URLs mit bestimmten Parametern schließt man unter „Vorherige Tools und Berichte“ – „URL-Parameter“ aus. Dies ist praktisch, um beispielsweise Parameter-URLs, die durch Filtereinstellungen auf der Webseite generiert werden, von der Indexierung auszuschließen. Wichtig ist hierbei zu erwähnen, dass 1. diese Einstellungen nur für Google gilt, nicht jedoch für andere Suchmaschinen. Und 2. sollte das Problem im Idealfall natürlich mithilfe anderer Mittel (robots.txt, noindex, Canonicals) oder der Vermeidung der Generierung von Filter-URLs auf der Webseite behoben werden, sodass die Notlösung über die Google Search Console gar nicht erst notwendig wird.

Unter „Vorherige Tools und Berichte“ – “Weitere Informationen” – “Einstellungen für die Crawling-Frequenz” kann zudem eine maximale Crawling-Frequenz eingestellt werden. Hierbei können Werte von wenigen bis zu vielen Anforderungen pro Sekunde ausgewählt werden. Die Crawling-Frequenz sollte nur beschränkt werden, wenn Google den Server der Seite verlangsamt. Achtung: Diese Einstellung ist nur 90 Tage gültig und muss dann erneut vorgenommen werden. Auch hier gilt: dies ist nur eine Notlösung! Wenn Crawler den Server der Seite verlangsamen, sollten unbedingt Optimierungen an der Serverleistung vorgenommen werden.

Zurück nach oben

Praktisches Beispiel: Duplicate Content durch Parameter-URLs vermeiden

Es gibt eine Kategorie-Seite: https://www.beispiel-shop.de/kategorie
Und mehrere Filter-URLs, wie z.B. diese:

  • https://www.beispiel-shop.de/kategorie?filter-farbe
    https://www.beispiel-shop.de/kategorie?filter-preis
  • Dadurch entsteht Duplicate Content, weil alle drei URLs bis auf die angezeigten Produkte identisch sind (Meta Daten, Überschrift, Text etc.). Hier einige Vor- und Nachteile der vier verschiedenen Varianten:

Search Console

Vorteile:

  • Funktioniert verbindlich bei Google

Nachteile:

  • Relativ komplizierte Konfiguration
  • Gilt nur für Google, hat keine Relevanz für andere Suchmaschinen

robots.txt

Vorteile:

  • Gültig für alle Suchmaschine

Nachteile:

  • Nur eine Empfehlung, ist nicht verbindlich

noindex

Vorteile:

  • Verbindliche Methode, um Seiten aus dem Index zu entfernen
  • Gültig für alle Suchmaschinen

Nachteile:

  • Kein Verweis auf die relevante (kanonische) Seite möglich

Canonical

Vorteile:

  • Gültig für alle Suchmaschinen
  • Verweis auf relevante Seite, in diesem Fall die Kategorie-Seite

Nachteile:

  • Nur eine Empfehlung, wird meistens übernommen, jedoch nicht immer

 

In diesem Fall würde ich die Filter-URLs auf noindex setzen. Damit ist gewährleistet, dass nur die Kategorie-Seiten im Index erfasst werden und es keinen Duplicate Content gibt.

Hierzu gibt es jedoch zwei Alternativen.
Erstens kann man CMS-Systeme so einstellen, dass sich durch die Filterung nicht die URL ändert. Dies ist jedoch nur bei wenigen CMS-Systemen möglich und setzt umfangreiches technisches Know-how voraus.

Zweitens gibt es die Möglichkeit, einzelne Filterseiten zu optimieren.
Statt eine URL (Beispiel: https://www.beispiel-shop.de/kategorie?filter-farbe) auf noindex zu setzen, kann man sie auch mit einem individuellen Title Tag, einer Meta Description, einer H1-Überschrift und einem spezifischen Text versehen. Damit ist die Seite kein Duplikat der eigentlichen Kategorie-Seite mehr und die Seite kann sogar zusätzlich verlinkt und zur Generierung von Rankings genutzt werden. Auch diese Möglichkeit hängt maßgeblich vom CMS und der verwendeten Technik ab.

Fazit

Es ist für Webseitenbetreiber sehr wichtig, das Crawling der Sluchmaschinen zu lenken und die Indexierung der einzelnen URLs zu steuern. Es gibt eine Vielzahl von Möglichkeiten, dies zu tun, angefangen mit einer schlanken, flachen Seitenhierarchie bis hin zur Sperrung einzelner Seiten für den Index. Die theoretischen Grundlagen habe ich in diesem Artikel erläutert und an dem Beispiel eine mögliche Umsetzung veranschaulicht. Das Thema ist sehr komplex und je nach Anwendungsfall müssen individuelle Lösungen mit dem Ziel relevante URLs in den Index zu bekommen ausgearbeitet werden und nicht-relevante URLs bzw. Duplikate aus dem Index herausgehalten werden.

Zurück nach oben

Claudia Werner

Geschrieben von

Claudia ist nach ihrem Medienkommunikation-Studium in Würzburg nach Köln gezogen und arbeitet als SEO Consultant bei morefire. Vor allem im technischen SEO fühlt sie sich zuhause und wenn sie nicht arbeitet, ist sie vor allem auf Brettern aller Art unterwegs, egal ob Skate-, Snow- oder Surfboard.

4 / 5 (5 votes)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.