Information Retrieval

XOVI Banner

m Zusammenhang mit der IT und dem Internet kommt immer wieder auch der Begriff „Information Retrieval“ vor. Das bedeutet in etwa soviel wie Informationsgewinnung oder Informationsrückgewinnung. Dabei geht es vor allem darum, aus einer großen und unsortierten Menge von Daten nützliche Informationen zu gewinnen.

Viele Unternehmen in der IT sammeln nebenbei und automatisch eine ganze Menge Daten. So zum Beispiel auch der IT-Riese Google. Aus diesen Daten, die sonst eigentlich erstmal keinen Sinn machen, soll dann mit Information Retrieval alle verfügbaren Daten und Informationen herausgeholt werden. Wie genau das funktioniert und was man dabei alles beachten sollte, darum geht es in diesem Artikel.

Was genau ist Information Retrieval?

Information Retrieval bezeichnet den großen und unstillbaren Durst nach neuen Informationen und nach Wissen. Spätestens seit der Einführung des Internet leben wir alle in einer digitalen Informationsgesellschaft. Hinweise, Informationen, Fakten und Daten sind heute für uns viel wichtiger als noch vor etwa 50 Jahren.

Das Internet hat die Gewinnung von und die Suche nach Informationen so einfach gemacht, wie nie zuvor. Aber: Alle diese Daten und Informationen bringen nichts, wenn sie nicht auch von irgendwem abgerufen werden. Diese Aufgabe erledigen für uns zumeist Suchmaschinen wie Google, Bing, und Co. Natürlich sind Suchmaschinen aber nicht allwissend oder magische Computer voller Informationen.

Damit uns Google, Bing oder Yahoo mit Informationen versorgen kann, müssen diese Plattformen zunächst einmal selbst an Informationen kommen. Diese Informationsbeschaffung oder Informationsgewinnung ist in der Informatik heute ein völlig eigenen Bereich: Information Retrieval. Zum Einsatz kommen hier komplexe Systeme und Algorithmen, die in der Lage sind die Intentionen und Wünsche hinter den verschiedenen Suchbegriffen zu erkennen und so relevante Daten zur jeweiligen Suche ausfindig zu machen.

Instagram Business Banner
Instagram Business mobile Banner

Wie funktioniert die Informationsgewinnung?

Anders als bei der Informationsbeschaffung, geht es bei der Rückgewinnung von Daten vor allem um bereits vorhandene Daten. Dabei kann es sich um nebenbei oder unabsichtlich gesammelte Daten handeln, aber auch um Datenreste, die von den Aktionen der User übrig bleiben. Alle Menschen, die zum Beispiel über die Suchmaschine Google etwas suchen, hinterlassen dabei Spuren.

Informationen darüber, was gesucht wurde und wo sowie allgemeine Daten über die Herkunft des Users, usw. werden alle von Google bei einer Suche registriert. Aber: Diese Daten liegen einfach nur auf dem Server herum und niemand hat etwas davon. Zumindest solange nicht, bis durch Daten Retrieval aus diesen Dateien, Logs und Registern alle wichtigen Informationen herausgeholt werden.

Verschiedene Möglichkeiten zur Informationsrückgewinnung

Mit der Zeit und der Verfügbarkeit von neuen Technologien sind immer neue und andere Möglichkeiten für das erfolgreiche Information Retrieval gefunden worden. Heute kommen hierfür mehrere Modelle zum Einsatz. Im Einzelnen handelt es sich dabei um:

  • Das boolesche oder mengentheoretische Modell
  • Das Vektorraummodell
  • Das probabilistische Modell

Alle diese Kategorien können einzeln oder in Kombination gemeinsam für das Information Retrieval genutzt werden um so zu dem gewünschten Ziel bzw. Ergebnis zu gelangen.

Das boolesche Modell

Das Boolesche Modell gehört zu den bekanntesten Verfahren im Informationen Retrieval. Viele der bekanntesten Suchmaschinen im Netz basieren auf diesem System. Hierbei handelt es such um logische Verknüpfungen, die es dem User ermöglichen seine Suche zu verfeinern oder bestimmte Kriterien festzulegen.

Mit den Begriffen AND (UND), OR (ODER) und NOT (NICHT) bzw. den entsprechenden Symbolen ist es möglich, eine Suchanfrage einzugrenzen oder zu spezifizieren. Zum Beispiel so, dass zwei Wörter in einem Ergebnis vorkommen müssen oder das bestimmte Wörter ignoriert werden. Viele Operatoren, etwa bei Google arbeiten nach diesem Verfahren. Der Nachteil ist, dass es hier keine Rangordnung bei den Ergebnissen gibt sondern eine zufällige Reihenfolge.

Das Vektorraummodell

Mathematisch betrachtet kann man alle Inhalte auch als Vektoren darstellen. Dieses Verfahren nutzt das Vektorraummodell. In diesem System werden Terms oder Begriffe als Achsen auf einem Koordinatensystem abgebildet. Dokumente sowie Suchanfragen erhalten bestimmte Werte im Bezug zu dem Begriff.

So lassen sich sie als Vektoren oder Punkte innerhalb eines Vektorraums darstellen. Nun ist es möglich, beide Vektoren miteinander zu vergleichen. Vektoren, die der Suchanfrage schließlich am ähnlichsten sind, sollten in der Liste der Ergebnisse dann auch an erster Stelle auftauschen. Diese Methode hat jedoch den Nachteil, dass sich ohne ein zusätzliches Boolesches System keine Begriffe verfeinern oder ausschließen lassen.

Das probabilistische Modell

Wie der Name schon vermuten lässt, nutzt das probabilistische Modell die Wahrscheinlichkeitstheorie. Alle Inhalte bekommen einen Wahrscheinlichkeitswert zugeteilt. Anschließend werden sie entsprechend der Wahrscheinlichkeit, mit der sie zur Intention der Suche passen sortiert.

Wie gut die Chancen sind, dass ein bestimmter Inhalt auch dem Wunsch des Nutzers entspricht, wird bei dieser Variante durch das Relevance-Feedback ermittelt. Hier wird auf die Hilfe der User gesetzt. Diese werden nämlich dazu aufgefordert, die Ergebnisse manuell zu bewerten. Folgt eine neue, gleichlautende Anfrage durch einen anderen User, zeigt dieses Modelle eine neue, im Idealfall bessere Liste.

Leider hat das probabilistische System aber zwei große Schwachstellen. Zunächst einmal setzt das Modell voraus, dass die User bereit und gewillt dazu sind, sich durch Feedback an dem ganzen Projekt zu beteiligen. Viele User haben jedoch keine Zeit oder einfach keine Lust dazu. Vor allem bei häufigen oder größeren Suchen ist dieses Feedback zudem oftmals zeitaufwändig und langwierig.

Das andere Problem ist, dass das Verfahren davon ausgeht, dass alle Nutzer die angezeigten Ergebnisse völlig unabhängig voneinander betrachten. Sie sollen den Inhalt so bewerten, was würde es sich um die ersten Informationen handeln, die der User bezüglich der seiner Anfrage liest. Leider sieht die Praxis aber anders aus. User schätzen den Nutzen einer Information nämlich immer basieren auf ihrem Wissen und auf Inhalte ein, die sie bereits gesehen haben und kennen.

3. Wie wichtig ist Information Retrieval für die Suchmaschinenoptimierung?

Bei den Suchmaschinen handelt es sich um einen Klassiker bei der Anwendung von Information Retrieval. Jede Suchmaschine arbeitet nämlich nach dem Prinzip der Informationsrückgewinnung, um ihre Arbeit korrekt erledigen zu können. Einige der Plattformen, wie zum Beispiel Google, nutzen hierfür speziell entwickelte Software.

Die Suchmaschine Google nutzt für das Information Retrieval den PageRank, der von Larry Page speziell für das Projekt entwickelt wurde. Im Umkehrschluss lässt sich so darauf schließen, dass Information Retrieval auf für SEO von großer Bedeutung ist. Auch wenn man den Begriff in diesem Zusammenhang nur selten hört.

Dennoch ist letztlich alles was man im Rahmen der Suchmaschinenoptimierung tut eine Maßnahme, um die Informatiosnrückgewinnung zu verbessern. Dies zeigt sich auch in dem direkten Zusammenhang von Information Retrieval mit WDF*IDF, welches beim Ranking im Rahmen von SEO eine immer größere Bedeutung bekommt, während die einfache Keyworddichte in den Hintergrund rückt.

Cashtube Masterclass Banner
Cashtube Masterclass mobile Banner

Verschiedene Funktionsweisen bei der Informationsbeschaffung

Unabhängig von den verwendeten Modellen und Verfahren kommen beim Information Retrieval verschiedene Arbeitstechniken und Methoden zum Einsatz. Auch wenn sich diese voneinander unterscheiden, haben sich jedoch nur ein einziges Ziel!

Sie sollen dem Nutzer die Suche nach Informationen vereinfachen und ihm Suchergebnisse liefern, die für ihn relevant sind. Professionelle Hilfe gibt es in diesem Bereich für akademische Arbeiten auch bei Studi-Kompass.

Term Frequency-Inverse Document Frequency oder TF-IDF

TF-IDF bezeichnet ein Verfahren, bei dem durch eine Kombination aus Vorkommenshäufigkeit von diversen Begriffen und der inversen Dokumenthäufigkeit berechnet wird, wie der jeweilige Begriff für eine Suchanfrage ist.

Es handelt sich hier um einen der wichtigsten Punkte. Generell findet sich vor allem die Kurzform TF-IDF Den vollen Begriff hingegen findet man eher selten.

Term Frequency erklärt

Die Term Frequency, auf deutsch oftmals auch als Suchwortdichte bezeichnet, gibt an wie oft ein bestimmter Begriff in einem Dokument auftaucht. Dieser Wert allein gibt aber keine Auskunft auf die Relevanz die der jeweilige Begriff für den Text hat. Denn: In einem langen Text kommen Wörter zwangsläufig öfter vor als in einem kurzen Text, auch wenn sie weniger relevant sind.

Um dieses Problem zu lösen, wird die Häufigkeit eines Begriff in Bezug auf den Umfang des Dokumentes betrachtet. Um dieses Ziel zu erreichen, wird die Häufigkeit des Suchbegriffes durch die Häufigkeit des Wortes geteilt, welches am meisten im gesamten Text vorkommt. Auf diese Weise erhält man ein überraschend präzises und aussagekräftiges Ergebnis.

Inverse Document Frequency erklärt

Anders als bei der TF oder Term Frequency betrachtet man bei IDF nicht nur ein einziges Dokument sondern den gesamten Korpus eines Textes. Hohe Relevanz haben dabei Wörter, die nur in wenigen Dokumenten allgemein zu finden sind, in diesem aber häufig vorkommen.

Worte, die hingegen in fast allen Texten und in großer Menge vorkommen, sind hingegen weniger relevant. Der Begriff „Inverse Dokumenthäufigkeit“ zum Beispiel hat einen Wert, der deutlich höher liegt, als etwa das Wort „und“. Inverse Document Frequency bezeichnet also die Anzahl der Dokumente geteilt durch die Anzahl der Dokumente, die den Suchbegriff enthalten.

Durch die Kombination von TF und IDF können Information-Retrieval-Systeme wie etwa Suchmaschinen bessere Ergebnisse liefern, als wie wenn jeweils nur TF oder IDF eingesetzt werden würde. Würde Google zum Beispiel nur auf Term Frequency setzen, dann wäre bei einer Suche nach „Die Sendung mit der Maus“ vor allem die Begriffe „die“, „der“ und „mit“ interessant.

Damit ist dem User aber nur wenig geholfen. Wird die Term Frequency hingegen mit der Inverse Document Frequency kombiniert, sind „Sendung“ und „Maus“ die Schlüsselworte und werden als Suchbegriffe erkannt. Ganz offensichtlich genau das, was der Nutzer möchte.

Die Query Modification

Es gibt aber noch ein weiteres Problem bei dem Information Retrieval. Dieses sind die Nutzer selbst. Sie machen oft nur ungenaue oder gar fehlerhafte Anfragen oder stellen Anfragen, die unvollständig sind. Das führt natürlich zu falschen Suchergebnissen. Informationswissenschaftler haben daher die Query Modification entwickelt, um dieses Problem zu umgehen.

Bei der Query Modification wird die Suchanfrage des Users automatisch und intern verändert, um die gewünschten Resultate zu liefern. Unter anderem werden so zum Beispiel Synonyme eingesetzt. Um dieses Ziel zu erreichen, greift das System sowohl auf User Feedback als auch auf Thesauri und andere Hilfen zurück.

Möchte man dieses Ziel ohne die Hilfe der User erreichen, kann auch Pseudo-Feedback verwendet werden. Hier liest das System relevante Begriffe aus den besten Suchergebnissen aus. Aus diesen Wörtern legt es dann selbst eine Relevanz fest und kann so das Ergebnis der Suchanfragen verbessern.

Die Stoppworteliminierung

Im Bereich von SEO und Information Retrieval sind Stoppwörter solche Begriffe, die nichts zum Inhalt oder Thema beitragen sondern einfach nur verwendet werden weil es Gewohnheit ist oder weil sich der Text so besser lesen lässt.

Ein Beispiel ist zum Beispiel das Wort „und“ oder auch „der“, „die“ bzw. „das“. Solche Wörter sollten nicht repräsentativ sein und auch nicht in das Suchergebnis einfließen oder dort angezeigt werden. Dies wird über die Stoppworteliminierung erreicht und umgesetzt.

Mehrwortgruppenidentifizierung im Information Retrieval

Nicht nur Stoppwörter müssen erkannt und eliminiert werden. Auch Gruppierungen von Begriffen müssen erkannt werden. Zum einen müssen bestimmte Wortgruppen eliminiert werden, zum anderen müssen Suchmaschinen aber auch Zusammenhänge verstehen, um etwa Teilsätze oder zusammengesetzte Begriffe richtig bewerten zu können.

In diesem Zusammenhang müssen die Suchbegriffe darüber hinaus ggf. auf den Wortstamm reduziert oder auch flektiert werden. Ansonsten könnte es passieren, dass das Suchergebnis ungenau wird.

Thesaurus

Wie bereits weiter oben kurz erwähnt, ist es nicht nur wichtig, die auftauchenden Begrifft korrekt zu identifizieren und einstufen zu können. Auch eventuelle Synonyme müssen erkannt und ggf. bei der Suche nach einem passenden Ergebnis auch verwendet werden.

Nur auf diese Weise kann man garantieren, dass der User auch immer das findet, was er sucht. Hier kommt der Thesaurus ins Spiel. Er ist für das Information Retrieval enorm wichtig da ohne ihn keine genauen Suchergebnisse möglich wären.

Faktoren für die Effizienz von Information Retrieval Systemen

Um zu bewerten wie gut das Information Retrieval funktioniert und ob ggf. Änderungen und Anpassungen notwendig sind, muss die Effizienz gemessen werden.

Dies erfolgt bei diesem System in der Regel über zwei Faktoren. Nämlich die Trefferquote (Recall) und die Genauigkeit (Precision).

Die Trefferquote oder Recall

Wie vollständig und erfolgreich die Suchergebnisse sind, wird beim Information Retrieval unter anderem über einen Vergleich der Anzahl von nicht gefundenen Dokumenten mit der Zahl der erfolgreichen Suchen und der damit verbundenen gefundenen Dokumente.

Der Quotient des Recalls gibt entsprechend für den Betreiber des Information Retrieval an, wie wahrscheinlich es ist, dass ein relevantes, von dem User gesuchtes Dokumente auch gefunden wird. Dieser Quotient sollte natürlich möglichst hoch sein, um den Erfolg zu bestätigen. Ist das nicht der Fall, dann muss ggf. hier etwas nachgearbeitet werden.

Genauigkeit, auch als Precision bezeichnet

Außerdem gilt es zu bestimmen, wie genau das Suchergebnis ist. Schließlich sollen nicht nur Suchanfragen erfolgreich gefunden werden sondern das Ergebnis muss auch genau sein, damit es den Nutzer zufrieden stellen kann. Dies wird im Rahmen der Precision oder Genauigkeit bestimmt.

Hierfür wird die Anzahl der gefundenen Dokumente, die eine Relevanz für die Suche haben mit den Ergebnissen verglichen, die nicht oder nur wenig relevant für die jeweilige Suche sind. Hier gibt der Quotient also an, wie wahrscheinlich es ist, dass das gefundene Dokument oder Suchergebnis auch relevant bzw. genau ist.

Im Folgenden gibt es nun einige Beispiele, die die Berechnung und Verwendung dieser Quotienten deutlich machen und aufzeigen wie sie im Rahmen des Information Retrieval funktionieren.

Wie wird die Precision berechnet?

Grundsätzlich liegen die Werte bei der Genauigkeit zwischen 0 und 1. Die 1 wäre hier ein absolut perfekter Wert. Perfekte Ergebnisse bei beiden Quotienten schließen sich in der Praxis jedoch aus. Erhöht man die Vollständigkeit der Suchergebnisse, dann geschieht das immer auf Kosten der Genauigkeit und umgekehrt ist das natürlich nicht anders. Ein zusätzlicher Wert, der hier hilfreich ist und ebenfalls berechnet werden kann, ist der Fallout-Wert.

Fallout bezeichnet die Ausfallquote und gibt die Zahl der sogenannten False-Positives, also falscher Ergebnisse wieder, die irrtümlich als korrekt eingestuft wurden. Bestimmen kann man die Fallout-Quote indem man das Verhältnis der gefundenen, nicht relevanten Inhalte mit den nicht gefundenen irrelevanten Dokumenten vergleicht. Die Darstellung von Recall und Precision kann in einem Achsendiagramm mit zwei Achsen erfolgen.

Information Retrieval in der Praxis – Ein Beispiel für Suchmaschinen

Wie eingangs bereits erwähnt, basiert jede Suchmaschine im Internet auf Information Retrieval. Das gilt auch für die bekannten Beispiele wie Bing, Google oder Yahoo, die allesamt die Suchergebnisse über Informationsrückgewinnung beschaffen. Um aber die Funktionsweise der Suchmaschinen unter dem Einsatz von Information Retrieval deutlich zu machen, soll das folgende Beispiel dienen.

Gehen wir also davon aus, dass wir in der Datenbank einer kleinen Bibliothek für Kinderbücher mit einer eigenen Suchmaschine nach einem bestimmten Buch für unseren Sohn suchen. In dem Buch sollen Affen und Elefanten vorkommen, da unser Sohn sich für diese Tiere begeistert. Vor Tigern und Löwen hingegen hat der Kleine Angst und diese Tiere sollen daher nicht im Buch vorkommen.

Eine einfache boolesche Suche würde in diesem Fall so aussehen: Affe UND Elefant NICHT Tiger NICHT Löwe. Da es sich hier um eine Boolesche Suche handelt, kann das Ergebnis immer nur 0 oder 1 sein. Der Begriff kommt entweder vor oder eben nicht. Angezeigt bekommt man nun zwei Ergebnisse: „Tim & Olli im Zoo“ sowie „Michael und der verrückte Zirkus“.

Jetzt weiß man zwar, dass in diesen beiden Büchern Affen und Elefanten vorkommen, aber es gibt noch keine Wertung. Wo gibt es mehr Affen und Elefanten? Vielleicht kommt bei einem Buch nur einmal irgendwo in der Beschreibung des Zoos das Wort Giraffe und Affe vor, aber sonst nicht mehr. Das wäre nicht wirklich sinnvoll und würde unseren Sohn nicht glücklich machen.

Hier kommt nun die Term Frequency und die Inverse Document Frequency zum Einsatz. Beides wird durch die Suchmaschine ebenfalls bestimmt. Da „Tim & Olli im Zoo“ besser bei den Terms und bei dem IDF abschneidet als „Michael und der verrückte Zoo“ sollte es an erster Steller der Suchergebnisse stehen. Gefolgt von dem zweiten Buch.

Die hier verwendete Methode funktioniert aber nur dann, wenn die Suchbegriffe genau festgelegt sind. Dann spricht man auch von kontrollierter Indizierung. Diese findet man oftmals in Fachdatenbanken, wo die Nutzer mit dem System vertraut und in der Nutzung der Suchmaske geschult sind. Im Alltag ist das natürlich nicht der Fall.

Die meisten User wissen nämlich eben nicht wie man korrekt sucht und schreiben einfach irgendwas, wie es ihnen in den Sinn kommt und richtig erscheint. Um hier Abhilfe zu schaffen, nutzen viele Suchmaschinen zusätzlich noch eine Query Modification.

Außer „Giraffe“ und „Affe“ wird so auch nach grammatischen Varianten und Synonymen dieser Wörter gesucht. Gorilla, Schimpanse, etc. würde vermutlich in diesem Beispiel dann ebenfalls positive Ergebnisse liefern und dem weniger erfahrenen Nutzer dabei helfen, dass beste Ergebnis zu erzielen.

Fazit und Zusammenfassung

Information Retrieval ist heute nicht mehr wegzudenken. Vor allem bei Suchmaschinen kommt dieses Verfahren tagtäglich zum Einsatz. Darüber hinaus spielt Informationsrückgewinnung aber auch bei der Suchmaschinenoptimierung (SEO) eine wichtige Rolle, auch wenn der Begriff hier eher selten fällt. Häufiger hört man im SEO eher die Bezeichnung IDF oder TF*IDF.

Information Retrieval hilft dem Nutzer einer Suchmaschine durch verschiedene Techniken und Algorithmen dabei, dass bestmögliche und genauste Ergebnis für eine Anfrage zu bekommen. Irrelevante Begriffe und Dokumente werden dabei ignoriert und relevante Dokumente gefiltert.

Durch weitere Techniken und Verfahren kann man außerdem noch die Gewichtung der Ergebnisse ändern und so ein klares Listen erhalten, bei dem das Ergebnis welches am ehesten auf die Suchanfrage zutrifft ganz oben steht und alle weiteren Ergebnisse entsprechend ihrer Relevanz folgen.

Bewerte diesen Artikel
1 Stern2 Sterne3 Sterne4 Sterne5 Sterne

1 Bewertung(en), durchschnittlich: 5,00 von 5

Loading...