Information Retrieval System Definition & Erklärung

Um zu verstehen, wie eine Suchmaschine funktioniert, sollte man ihren Aufbau kennen. Mit der naiven Vorstellung, dass Suchmaschinen bei einer Suchanfrage das gesamte Internet durchsuchen, möchte ich an dieser Stelle aufräumen und ein wenig auf die Wirkungsweisen des Information Retrieval (Deutsch: Rückgewinnung von Informationen) eingehen.

Die vollautomatischen (algorithmischen) Suchmaschinen wie Google, Bing, Yahoo oder zum Beispiel DuckDuckGo werden oft als Spider-Suchmaschinen bezeichnet und basieren auf einem robotergenerierten Index oder besser einem Informations-Rückgewinnungssystem (Englisch: Information Retrieval System, kurz IR-System). Dieser robotergenerierte Index wird im wesentlichen aus folgenden Modulen versorgt und organisiert:

Robots,Spider und Crawler

Das erste Modul sammelt Informationen – eine Einheit, die auch als Robot, Spider oder Crawler bezeichnet wird. Dieser Informationssammler durchsucht das Web und speichert alle Webseiten, die er finden kann, – zur späteren Verarbeitung. Neue Dokumente werden dadurch gefunden, dass der Crawler alle Hyperlinks (URLs) innerhalb bereits bekannter Dokumente (Homepages) verfolgt.

Der Crawl-Vorgang findet kontinuierlich statt. Allerdings kann ein Informations-Suchender mit diesen gespeicherten Informationen noch nicht viel anfangen, weil sie in dieser Phase noch nicht analysiert und sortiert sind. Es würde zu lange dauern, bei einer Anfrage alle gespeicherten Webseiten noch einmal zu durchsuchen. Dazu bedarf es einer sogenannten Dokumentenrepräsentation.

Formalisierung durch IRS

Die Dokumentenrepräsentation erzeugen weitere Module durch Bearbeitung und Strukturierung der gesammelten Informationen nach formalen Prinzipien: Ein System zur Syntaxanalyse und ein Indexierer zum Speichern. An dieser Stelle werden die Daten gemäß eines Models der Dokumentenrepräsentation strukturiert, durchsuchbar gemacht und der eigentliche Index der Suchmaschine gebildet. Beachte dabei, dass im Index nicht steht, welche Wörter in einer Webseite enthalten sind, sondern – umgekehrt – welche Webseiten bestimmte Stichwörter (Keywords) enthalten. Dies bedeutet, dass die Zuordnung nach Keywords und nicht nach Webseiten erfolgt.

Die Formalisierung zu einer Dokumentenrepräsentation wird durch eine allgemeine Formel (hier unter Vernachlässigung des Relevanz-Feedbacks) als 7-Tupel errechnet wie folgt:

IRS = (A_IR(D), W, Q, A_IR(Q), E, ret(.), rank(.))

A_IR(D): Dokument-Indexierungsfunktion als Abbildung eines Dokumentes Di auf eine Dokumentrepräsentation xi.
W: Menge aller möglichen Dokumentrepräsentationsmengen
Q: Menge aller zugelassenen Suchfragen Qj.
A_IR(Q): Query-Indexierungsfunktion als Abbildung einer Anfrage Qj auf eine Queryrepräsentation qj.
E: Menge aller möglichen Outputmengen (Potenzmenge der Dokumentmenge) bzw. Outputlisten (beim Ranking).
ret(.): Retrieval-Funktion als Abbildung einer indexierten Suchfrage qj auf eine Teilmenge der Dokumentrepräsentationsmenge.
rank(.): Rankingfunktion als Abbildung der ermittelten Dokumentrepräsentationsteilmenge auf eine Liste der Dokumentrepräsentationen.

SQL-Selects, Abfragemodule

Das Auswerten von Suchanfragen erledigen Query Module (Abfragemodule). Gibt ein Nutzer eine Suchanfrage über das Suchformular einer Suchmaschine ein, wird mittels des Query der Index abgefragt. Beim Abschicken werden logische Operatoren und Befehle mittels sogenannter SQL-Selects verknüpft und der Datenbank-Server gibt eine Liste mit den Suchergebnissen aus.

Die Stichwörter (Keywords) sind in der Datenbank einer Suchmaschine alphabetisch sortiert. Deshalb kann die passende Stelle und somit eine Liste mit allen Webseiten, auf die der gewünschte Suchbegriff passt, relativ schnell gefunden werden. Dieses Konzept ermöglicht innerhalb von sehr kurzer Zeit zu fast jedem Suchwort mehrere Tausende von Webadressen aufzulisten.

Nachteil dieser Technologie ist, dass die Robots den Inhalt gefundener Dokumente noch nicht semantisch einordnen können. Deshalb kann es vorkommen, dass Seiten aufgelistet werden, bei denen das gesuchte Wort nur beiläufig oder in einem für den Informationssuchenden nur unrelevanten Kontext vorkommt. Man nennt diesen Effekt False Drops.

An dieser Stelle wird auch deutlich, warum nach Keywords und nicht nach Webseiten sortiert wird: Würde ein Abfrage-Programm bei jeder Anfrage die gesamte Datenbank durchsuchen, wäre die Suchmaschine völlig überlastet. Ferner gibt es noch Module zur kontinuierlichen Datenpflege. Sie sorgen für eine Index-Aktualisierung bei laufendem Betrieb und die Aussonderung von Dubletten aus dem Index.

Lies dazu auch folgende Artikel: PageRank, Hilltop-Algorithmus, Hyperlink Induced Topic Search, Deep Crawl.

Bewerte diesen Artikel

1 Bewertung(en), durchschnittlich: 5,00 von 5