Deep Crawl Definition & Erklärung

Unter Deep Crawl oder Tiefen-Indexierung versteht man eine Technik von Suchmaschinen, eigenständig alle Unterseiten einer Website zu crawlen und zu indexieren.

Suchmaschinen wie Google, die sich der Deep Crawling Technologie bedienen, nehmen automatisch und ohne Anmeldung bei Suchmaschinen Unterseiten einer Website in ihren Index auf. Das bedeutet, dass, wenn eine Website schon indexiert ist und eine innere Verlinkung hat, der Eintrag von verlinkten Unterseiten bei dieser Suchmaschine nicht erforderlich ist, da die Crawler (Spider) dies erledigen.

Der DeepCrawl liest alle Informationen bis in die unterste Ebene aus. Dieser Vorgang ist sehr zeitaufwendig und kann mehrere Stunden dauern. Deshalb arbeiten Roboter von Suchmaschinen mit Wartezeiten, um den Webserver nicht zu stark zu belasten.

Das Deep Crawling lässt sich anhand von Server-Logfiles genau beobachten. Der User Agent der Crawler gibt Auskunft darüber, welche Suchmaschine gerade auf deinen Seiten ist. So geben sich die Crawler von Yahoo! als “Slurp” und von Google als “Googlebot” (ehemals “backrub”) aus. Logfiles geben auch die IP-Adresse an, von der aus die Crawler arbeiten.

Verschiedene Suchmaschinen haben auch unterschiedliche Kriterien, nach deren sie entscheiden, ob und welche Unterseite aufgenommen wird. Als Relevanzkriterium können zum Beispiel der PageRank (PR) oder die Link Popularity dienen.

Suchmaschinen, die ohne Deep Crawl arbeiten, beachten nur solche Webseiten, die explizit angemeldet wurden oder sie verfolgen Links zu Unterseiten nur bedingt tief.

Siehe auch: Fresh Crawl, Freshbot und Everflux Effekt.

Bewerte diesen Artikel

Bis jetzt keine Bewertung