Webcrawler Definition & Erklärung

Ein Webcrawler (auch Spider oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind beispielsweise das Sammeln von Mailadressen oder anderen Informationen.

Wie beim Internetsurfen gelangt ein Webcrawler über Hyperlinks von einer Webseite zu weiteren URLs. Dabei werden alle bisher bekannten Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks werden zur Liste aller URLs, hinzugefügt. Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden.

In der Praxis wird jedoch oft eine Auswahl getroffen und der Prozess wird irgendwann beendet und von vorne begonnen. Ein Großteil des gesamten Internets wird von Webcrawlern und damit auch mit bekannten Suchmaschinen nicht erfasst, da viele Inhalte nicht über einfache Links, sondern beispielsweise nur über Suchmasken und zugangsbeschränkte Portale erreichbar sind. Man spricht bei diesen Bereichen auch vom „Deep Web„.

Je nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen. Dabei werden verschiedene Ranking-Algorithmen eingesetzt.

Mit Hilfe des Robots Exclusion Standards kann ein Webseitenbetreiber in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler mitteilen, welche Seiten er indexieren soll und welche nicht, sofern sich der Webcrawler an das Protokoll hält.

Bewerte diesen Artikel

Bis jetzt keine Bewertung