XML Sitemap: Grundwissen und Inhalt einer XML-Sitemap-Datei!

OnPage SEO Buch

Die Sitemaps Datei stellt einen wichtigen Weg dar, die eigenen Webseiten bei Suchmaschinen zu melden, die zum Crawlen verfügbar sind. Die einfachste Art hier, ist die Hinterlegung einer XML-Datei auf dem Webverzeichnis.

Man kann in eine Sitemap Datei die URLs (Adressen) sowie zusätzliche Metadaten (Informationen) hinterlegen und somit Suchmaschinen ein intelligenteres Indizieren ermöglichen.

Normalerweise ermitteln Crawler Seiten aufgrund von internen und externen Links. Sitemaps ergänzen im Idealfall diese Daten. Sie unterstützen den Crawler alle genannten URLs in der Sitemap aufzunehmen und anhand der hinterlegten Metadaten, alle Informationen über die Website zu ermitteln.

Die Verwendung einer Sitemap Datei ist aber immer noch keine Garantie dafür, dass alle Webseiten indiziert werden. Sie stellen lediglich eine Hilfe für die Crawler da, mit denen diese dann, beim Durchsuchen der Website, bessere Ergebnisse erzielen können. Sitemaps sind weit verbreitet und werden u. a. von Google, Yahoo! und Microsoft unterstützt.

Inhalt einer XML Sitemap Datei

Generell muss die XML Sitemap Datei im UTF-8 Code hinterlegt sein. Die Datei beginnt immer mit der Definition der Version des genutzten XML Protokolls, und das immer “wohlgeformt” , also z.B.:

Dann folgen die Attribute. Zurzeit gibt es 6 Attribute die gängig sind und die Nutzung aller Attribute empfehle ich hier generell. Alle anderen Attribute sind Eigenkreationen von irgendwelchen Personen. Wie bei fast allem, gilt hier das “Weniger ist mehr” Prinzip.

<urlset>

Dient zur Zusammenfassung der Sitemap Datei und verweist auf den gültigen Protokollstandard.

<url>

Übergeordneter Tag (Befehl, Anweisung) für die darauf folgenden einzelnen Beschreibungen. Die übrigen folgenden Tags sind diesem immer untergeordnet (Siehe wohlgeformt).

<loc>

Adresse der Seite. Diese darf höchstens 2.048 Zeichen lang sein und sollte im Falle einer Internetadresse oder eines Verzeichnisses mit einem Schrägstrich enden.

Beispiele:

http://www.mustermann.de/

http://www.mustermann.de/verzeichnis/

http://www.mustermann.de/verzeichnis/seite.html

<lastmod>

Datum der letzten Änderung. Hier werden zwei Datumsformate verwendet. Zum einen das XML Zeitformat welches gerne von vielen Generatoren eingesetzt wird und sich an die UTC Zeit richtet. An sich nicht schädlich, aber bei Möglichkeit nur sinnvoll bei Zeit relevanten Inhalten.

Also etwa bei Nachrichtenseiten oder Börsen ähnlichen Seiten. Hier ist eine manuelle Pflege und Einreichung der Sitemap so oder so sehr aufwendig. Beispiel: 2010-08-16T02:09:46+00:00

Und zum anderen das W3C Datetime-Format. Mit diesem Format kann man einfach die Uhrzeitangabe weglassen und nur JJJJ-MM-TT verwenden. Beispiel: 2010-08-16

Manch eine Suchmaschine speichert ja bekanntlich ein Abbild der indizierten Seite. Damit die Suchmaschine nicht unnötig den Datenverkehr erhöht, haben manche Server eine Prüffunktion ob ein Inhalt gegenüber dem Abbild verändert worden ist.

Gibt es keine Änderung so sendet der Server eine bestimmte Antwort. Wenn der Server oder auch die Website über solch eine Funktion Namens “If-Modified-Since-Header (304)” verfügt, kann man diese Angabe durchaus weglassen. Aber, Suchmaschinen können die Informationen von beiden Quellen unterschiedlich verwenden.

<changefreq>

Die voraussichtliche Häufigkeit, mit der die Seite aktualisiert wird. Ist aber nicht so zu verstehen, dass man dem Crawler sagt wann er wiederkommt (Wie man das macht steht hier).

Ich empfehle die Nutzung, wie folgt:

always

  • Nur zu verwenden wenn bei jedem Zugriff sich die Webseite ändert bzw. ändern kann! Sinnvoll bei Börse ähnlichen Daten. Also sich ständig veränderten Daten.

hourly

  • Stündlich zu erwartende Aktualisierung. Sinnvoll bei Forenseiten, Hauptnachrichtenseiten oder Wetterservices.

daily

  • Tägliche Aktualisierung. Sinnvoll bei Blog Startseiten oder bei virtuellen schwarzen Brettern.

weekly

  • Wöchentliche Aktualisierungen. Sinnvoll bei ausführlichen Produkt Informationsseiten, Hauptseiten mit sinnvoller Funktion im Gesamtangebot oder bei Seitenverzeichnissen.

monthly

  • Monatliche Aktualisierung. Sinnvoll bei gelegentlich aktualisierten Seiten oder Artikeln, FAQs, etc.

yearly

  • Kontaktseiten, “Über Uns” Seiten, Seiten die zur Registrierung von Besuchern erstellt worden sind, etc.

never

  • Keine Aktualisierung zu erwarten. Veraltete Nachrichten, veraltete Pressemitteilungen, Disclaimer, AGB, Policy. Diese Angabe hat aber keinen Befehlsstatus bei Crawlern. Heißt, bei der Angabe “never” kann der Crawler nach eigenem Ermessen wiederkommen und erneut nachschauen. Die anderen Angaben verhalten sich genauso.

<priority>

Angabe in Zahlen wie wichtig diese Seite gegenüber den anderen eigenen Seiten ist. Gültige Angaben sind 0,0 bis 1,0. Die Angabe informiert nur die Suchmaschinen, welche Seite für den Crawler die höchste Priorität haben soll. Die Standardpriorität einer Seite ist hierbei 0.5.

Ich empfehle folgende Angaben bei folgenden Seitenarten zu nehmen:

0.8-1.0

  • Hauptadresse, Startseite, Startseite von Subdomains, ausführliche Produkt Informationsseiten, Hauptseiten mit sinnvoller Funktion im Angebot, Startseite von Unterseiten wie Foren.

0.4-0.7

  • Alle anderen Inhalte der Webseite, Blog Artikel, Kategorie-Seiten, FAQs, etc.

0.0-0.3

  • Veraltete Nachrichten, Vergangenes, nichts wichtiges, irrelevantes, wie Impressum, AGB, Disclaimer, Policy, unwichtige Archivseiten, etc.
Lexoffice Banner
Lexoffice mobile Banner

Sitemaps-Generatoren

Ein komfortabler und einfacher Weg eine Sitemap Datei anzulegen ist die Nutzung kostenloser Generatoren.

Die beliebtesten sind wie folgt:

  • XML-Sitemaps.com (Englisch)
    Mein Favorit für mittelgroße Webseiten. Einfach, schnell und ohne Registration. Man bekommt nicht nur XML Sitemaps, sondern auch Sitemaps als ROR, HTML, TXT oder als XML-Code. Was genau die weiteren Formate sind und für was diese dienen möchte ich im nächsten Teil erklären.
  • Gsitecrawler.com (Deutsch)
    Ein weiterer Favorit von mir, vor allem für große oder mehrere Webseiten. Die Offline Software Variante ist auch auf Deutsch zu haben und wirklich sehr umfassend. Funktionen: Mehrere Projekte verwalten, Export und Import Funktionen, Statistiken, u.v.m.
  • Sitemapdoc.com (Englisch)
    Der einfache unter den Generatoren.
  • Freesitemapgenerator.com (Englisch)
    Ein interessanter Generator, da er die Suchmaschinen Google und Bing nach Erstellung eines Sitemaps automatisch anpingt (Sinngemäß: meldet). Eventueller Nachteil für manchen, man muss sich registrieren und nicht alle Funktionen sind kostenlos.

Im nächsten Teil werde ich auf die weiteren Formate (Arten) von Sitemaps eingehen. Und euch die Generatoren genauer vorstellen. Bis dahin könnt Ihr gerne eure Erfahrungen und vielleicht weitere Tipps hier hinterlassen.

Bewerte diesen Artikel
1 Stern2 Sterne3 Sterne4 Sterne5 Sterne

22 Bewertung(en), durchschnittlich: 5,00 von 5

Loading...

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.