Hilltop-Algorithmus

OnPage SEO Buch

Als Antwort auf eine Suchanfrage liefert eine Suchmaschine eine aus Ihrer Sicht nach Relevanz geordnete Suchergebnisliste. Diese Liste beinhaltet alle im Index vorhandene Webseiten und ist normalerweise wirklich sehr lang, so dass ein Suchender alle diese Ergebnisse selten betrachten kann. Studien zeigen, dass der User normalerweise nur die ersten 10 bis 20 Resultate ansieht.

Diese Top10 Ergebnisse sind so zu sagen die Essenz eines Suchbegriffs aus Hunderten oder Tausenden im Netz vorhandenen Webseiten. Für Ermittlung einer Ranglistenposition benutzen Suchmaschinen spezielle Algorithmen, die ständig weiter entwickelt werden. Zum Beispiel listet Google nach dem PageRank-Algorithmus und Yahoo nach dem WebRank-Algorithmus. Diese Algorithmen sind jedoch trotzdem noch nicht ausreichend und unter Umständen anfällig für Manipulationen.

Zur Beseitigung oben beschriebener Problematik entwickeln Suchmaschinenbetreiber stets weitere, leistungsfähigere Algorithmen. Sei einiger Zeit erarbeiten Wissenschaftler einen Algorithmus, der auf Experten-Dokumenten basiert und eine relevante Trefferquote erzielt: Den so genannten Hilltop Algorithmus. Das Konzept des Hilltop Algorithmus wurde vom Krishna Bharat und George Andrei Mihaila erarbeitet.

Hilltop als Spamwaffe

Bei einer traditionellen Informationsquelle wird angenommen, dass die im Text vorkommenden Wörter immer einen zusammenhängenden und für den Leser bestimmten, sinnvollen Satz bilden. Diese Annahme gilt im WWW nicht zu 100 %. Es gibt zahlreiche Webseiten, die ausschließlich zur Manipulation von Suchmaschinen geschaffen wurden. Solche Seiten beinhalten eine “zweckmäßige” Aneinanderreihung von Wörtern, um ein besseres Ranking zu erzielen.

Betreiber solcher Spam-Seiten gehen davon aus, dass eine Suchmaschine, grob gesagt, nur die Zeichenketten und die Abstände innerhalb eines Textes, nicht aber die semantischen Zusammenhänge eines Satzes erkennt. Dabei vergleichen Suchmaschinen eine bei der Suchanfrage als Suchbegriff übermittelte Zeichenkette mit den Zeichenketten abertausender Dokumente.

Selbst wenn man unterstellt, dass so mancher Betreiber die Suchmaschinenergebnisse nicht manipulieren will, so ist es doch offensichtlich, dass eine zunehmende Tendenz vorherrscht, das Internet mit immer mehr populären, oberflächlichen oder laienhaften Inhalten zu übervölkern. Infolgedessen werden spezifische Fragen oft unzulänglich beantwortet.

Wie wir sehen, genügt es nicht nur den Inhalt einer Webseite zu analysieren, um ihre Qualität zu ermitteln. Bei der reinen Inhaltsanalyse können Suchmaschinen nicht zwischen den maßgebenden und nicht-maßgebenden Seiten (zum Beispiel Ermittlung von Spam Seiten) optimal unterscheiden. Deshalb benutzen Sie darüberhinaus auch andere Kriterien, um Resultate zu ordnen. Verlässliche Kriterien für die Relevanzbestimmung einer Website sind die Anzahl und Qualität der Webseiten, die auf sie weiterleiten.

Aklamio Banner
Aklamio mobile Banner

Hilltop – Stein der Weisen?

Der Hilltop-Algorithmus basiert im Grunde auf den gleichen Annahmen wie andere Algorithmen, dass nämlich die Zahl und die Qualität der Quellen, die auf eine Webseite verweisen, ein gutes Maß für die Bestimmung der Qualität dieser Seite sind. Allerdings werden beim Hilltop nur so genannte Expertenseiten beachtet. – Dies ist ein weitreichender Unterschied!

Als Expertenseiten werden Quellen definiert, die speziell dafür erstellt wurden, Besucher zu hochwertigen Ressourcen weiterzuleiten. Bei einer Suchanfrage wird zuerst eine Liste der relevantesten Experten zu diesem Thema erstellt. Aus dieser Expertenliste werden wiederum die relevantesten Verweise verfolgt, um die Ziel- Webseiten zu ermitteln, welche letzen Endes nach Anzahl und Relevanz der Verweise von unabhängigen Experten gerankt werden.

Es werden also die unabhängigen Experten nach Relevanz kumuliert und in einem Pool zusammengefasst. Wenn kein Pool von Experten vorhanden ist, liefert Hilltop keine Ergebnisse. Damit steht der Hilltop-Algorithmus für Qualität der Resultate und nicht für deren Quantität. Der Hilltop-Algorithmus hat zwei Arbeitsphasen:

Experten (Expert Lookup)

Als eine Experten-Seite wird eine Seite definiert, die ein bestimmtes Thema betrachtet und mehrere Verweise zu unabhängigen themenbezogenen Seiten aufweist. Eine Expertenseite verfügt in der Regel über viele (mindestens 5) Verweise zu unabhängigen Seiten dieses Themas.

Zwei Webseiten werden als unabhängig voneinander bezeichnet, wenn sie von verschiedenen Autoren und Organisationen erstellt wurden. Die Anzahl von Experten kann variieren und es gibt im Web insgesamt weniger als 2 % Expertenseiten. Als typische Expertenseiten gelten zum Beispiel die meisten Seiten aus dem DMOZ-Verzeichnis oder aus anderen großen, manuell erstellten Webkatalogen.

Bei der Suche ermittelt eine Suchmaschine zuerst die passenden Expertenseiten. Wenn eine Webseite auf mindesten zwei unabhängigen Expertenseiten gelistet wird, wird sie zuerst als Kandidat für die Suchergebnisse bei der Suchmaschine betrachtet. Als weiteres analysiert die Suchmaschine die Anzahl und Relevanz der Verweise und ermittelt die Ranklistenposition. Dabei werden nur Verweise von unabhängigen Expertenseiten berücksichtigt.

Autorität (Target Ranking)

Eine Webseite ist nur dann eine Autorität auf einem Gebiet, wenn die besten Expertenseiten bei einer Suchanfrage auf sie verweisen. Selbstverständlich können in der Praxis auch solche Expertenseite gefunden werden, die das Thema nur am Rande betrachten, die jedoch trotzdem den Suchbegriff aufweisen.

In diesem Fall kann nur ein Teil der gefundenen Links relevant sein. Deshalb findet hier noch einmal eine extreme Auswahl statt: Eine Webseite kann nur von thematisch passenden Experten als Autorität definiert werden.

Ermittlung von Experten

Im Netz gibt es zahlreiche, mit der Hand erzeugte Listen zu verschiedenen Themen. Sie werden von Einzelpersonen oder Organisationen erstellt und üben über Ihre Popularität einen gewissen Einfluss innerhalb der User-Gemeinschaft aus. Die Autoren solcher Listen haben folglich Interesse daran, ihre Webkataloge, Listen und Webverzeichnisse möglichst komplett und aktuell zu halten. Sie verlinken ihre Seiten und sprechen Empfehlungen aus. Mit anderen Worten, es ist schwierig einen Experten von den anderen zu unterscheiden. Deshalb gibt es bestimmte Regeln, um die Experten objektiv und zuverlässig zu ermitteln.

Damit die Expertenseiten als unabhängig definiert werden, müssen sie folgende Kriterien erfüllen:

  • Die IP-Adressen dürfen nicht im gleichen C-Block liegen. Das heißt, die ersten drei Blöcke der IP-Adresse dürfen nicht identisch sein.
  • Der nicht generischer Teil des Domain-Namen muss sich unterscheiden. Als generisch werden die Endungen wie “com”, “co.uk”, “de” usw. betrachtet, d. h. solche, die bei vielen Websites auftreten. Als nicht generischer Teil eines Hostnamens werden rechtstehende Zeichen wie z. B. “yahoo” oder “ibm” erkannt. Wenn “www.rankwatcher.de” mit “rankwatcher.co.mx” verglichen wird, werden generischen Suffixe“.de” beziehungsweise “.co.mx” ignoriert. Somit würden also “www.rankwatcher.de” und “rankwatcher.co.mx” als zusammengehörig erkannt.
  • Beziehungen zwischen den Seiten werden überprüft. Verweisen drei Seiten A, B und C auf ein Ziel und hat A Beziehungen mit B, sowie B mit C, dann wird unterstellt, dass auch C mit A Beziehungen unterhält, selbst wenn es keinen unmittelbaren Beweis dafür gibt. In der Praxis werden dadurch manchmal “unschuldige” Seiten als Experten ausgeschlossen.
Facebook Ads Banner
Facebook Ads mobile Banner

Selektion von Expertenseiten

Diesem Schritt (Englisch: Selecting the Experts) geht die Datenbankabfrage einer Suchmaschine nach oben beschriebenen Kriterien voraus. Bei der Selektion der ermittelten Expertenseiten wird nun geprüft, ob eine Website einen bestimmten Schwellwert überschreitet. Eine Expertenseite sollte z. B. über viele (mindestens 5) Verweise zu unabhängigen Seiten eines Themas verfügen. Zusätzliche Bewertungen berücksichtigen die Zugehörigkeit der ausgewählten Seiten zu einem bestimmten Hauptthema (Kunst, Wissenschaft , Sport,…).

Indexieren der Experten

Bei der Erfassung von den Expertenseiten wird ein umgekehrter (invertierter) Index erstellt, in dem Schlüsselphrasen (Englisch: Keyphrases) aufgenommen werden, die das Vorkommen der Suchbegriffe in den Expertenseiten abbilden. Diese Keyphrasen sind Texte, die URLs auf einer Expertenseite beschreiben. Auch der Titel, die Überschriften und der Ankertext innerhalb der Expertenseite gelten als Keyphrasen.

Nun werden die URLs nach folgenden Kriterien dediziert bewertet:

  • Qualifiziert der Titel die relevanten Themen der im Dokument gelisteten URLs?
  • Qualifizieren Überschriften die relevanten Themen der im Dokument gelisteten URLs? Dabei werden die Bereiche unterhalb einer Überschrift nach allen URLs bewertet, bis eine andere Überschrift von gleichem oder größeren semantischem Wert im Rahmen der HTML-Notation (H1 – H3) vorkommt. Man geht davon aus, dass eine Überschrift nur für den Bereich bis zur nächsten Überschrift gültig ist.
  • Qualifizieren Ankertexte der URLs die Keyphrase?

In diesem invertierten Index werden die Positionen der Übereinstimmungen der gegebenen Suchbegriffe innerhalb der Keyphrase (Titel, Überschrift, Ankertext) einer Expertenseite an Hand der Reihenfolge der Übereinstimmungen festgehalten. Zusätzlich wird für jeden Experten eine Liste aller Verweise innerhalb seiner Dokumentstruktur erstellt. Die Zahl der Schlüsselwörter innerhalb einer Keyphrase wird begrenzt, um einen Vorteil für längere Formulierungen auszuschließen.

Fazit

  • In Experimenten bietet der Hilltop-Algorithmus Ergebnisse von großer Qualität, weil er Suchergebnisse mit hoher Relevanz zu Suchanfragen liefert. Dadurch eignet er sich besonders beim Ranking von häufig gestellten Suchanfragen zu allgemeinen Suchbegriffen.
  • Damit eine Website nach dem Hilltop Algorithmus für einen Suchbegriff ein gutes Ranking erreicht, braucht sie möglichst viele Links von unabhängigen Expertenseiten.
  • Durch sein Konzept der Unabhängigkeit von Expertenseiten lässt sich der Hilltop Algorithmus nicht so leicht manipulieren, wie andere Algorithmen, inklusive PageRank.

Am Rande: Die maßgeblichen Entwickler des Hilltop-Algorithmus sind Krishna Bharat und George Andrei Mihaila. Krishna Bharat, arbeitet inzwischen bei Google in der Forschungsabteilung. Es ist durchaus wahrscheinlich, dass Google auf einen Teil des Hilltop-Algorithmus schon jetzt zurückgreift. George A. Mihaila arbeitet beim “Thomas J. Watson” Research Center von IBM.

Mehr Informationen findest du auch unter Hyperlink Induced Topic Search und Information Retrieval System.

Bewerte diesen Artikel
1 Stern2 Sterne3 Sterne4 Sterne5 Sterne


Bis jetzt keine Bewertung
Loading...