robots.txt: Vermeide diese Fehler beim Erstellen der robots.txt-Datei!

Als Webmaster kennst du sicherlich das Problem, dass nicht alle Bereiche deiner Webseite von den Suchmaschinen gecrawlt werden sollen. In diesem Fall kann die robots.txt Datei dir dabei helfen, die Crawler einzuschränken und nicht für die Öffentlichkeit bestimmte Inhalte zu schützen.

Damit dies zuverlässig funktioniert, musst du wissen, wie du mit der Datei richtig umgehst. Es gibt häufige Fehler, die beim Erstellen einer robots.txt gemacht werden.

In diesem Artikel erfährst du, welche Fehler du beim Erstellen einer robots.txt Datei unbedingt vermeiden solltest, wenn du einzelne Bereiche deiner Internetpräsenz von der Indexierung durch Suchmaschinen wie Google und Co. ausschließen möchtest.

Inhaltsverzeichnis

Was ist robots.txt und wozu wird es verwendet?
Fehler Nr. 1 – Du verwendest eine falsche Syntax
Fehler Nr. 2 – Du legst die robots.txt nicht im Stammverzeichnis ab
Fehler Nr. 3 – Du blockierst unabsichtlich Verzeichnisse
Fehler Nr. 4 – Statt Verzeichnissen sperrst du Pfad-Bestandteile
Fehler Nr. 5 – Du erwähnst die Sitemap-URL nicht im robots.txt
Schlusswort

Was ist robots.txt und wozu wird es verwendet?

Das sogenannte „Robots Exclusion Standard Protokoll“ wurde im Jahr 1994 veröffentlicht. Es handelt sich dabei in der Programmiersprache also eher um ein Protokoll als um eine Datei. In diesem Protokoll ist festgelegt, dass die Crawler der Suchmaschinen zunächst im Hauptverzeichnis nach der robots.txt Datei suchen, die darin vorhandenen Angaben auslesen und erst anschließend mit dem Crawling starten.

Im Grunde ist es so, dass du mithilfe dieser Datei als Webmaster das Leseverhalten des Webcrawlers steuern kannst. Individuell legst du mit der robots.txt fest, welche Bereiche deiner Webseite nicht von den Suchmaschinen ausgelesen werden sollen. Da Suchmaschinen oftmals als sehr penibel gelten, ist es umso wichtiger, sich gut vor ihnen zu präsentieren.

Hierbei solltest du jedoch nicht denken, dass du die Datei zur Geheimhaltung von Daten benutzen kannst. Wie du eine robots.txt korrekt erstellst, erklärt Joel von Lightweb Media hier. Durch die richtige Einbindung der robots.txt können die Suchmaschinen deine Webseite besser lesen, was dir hinsichtlich SEO entscheidende Vorteile einbringen kann.

Fehler Nr. 1 – Du verwendest eine falsche Syntax

Bei robots.txt handelt es sich um eine einfache Textdatei. Dies bedeutet, dass du sie mithilfe eines Texteditors selber erstellen kannst. Hierbei besteht ein Eintrag in die robots.txt immer aus zwei Teilen. Zuerst musst du angeben, für welchen User Agent die Anweisung bestimmt sein soll. Danach kannst du dann im zweiten Teil mit dem Befehl Disallow: alle Seiten auflisten, die nicht vom User Agent gecrawlt werden sollen.

Um dafür zu sorgen, dass die Anweisung korrekt ausgeführt wird, musst du auf den richtigen Satzbau achten. Möchtest du beispielsweise eine Anweisung für den Google Bot erstellen, gehst du so vor: Der erste Teil besteht aus User-agent: googlebot und im zweiten Teil kannst du definieren, welcher Bereich nicht vom Google Bot gecrawlt werden soll.

Du schreibst also im zweiten Teil folgendermaßen: Disallow: /beispiel/. Möchtest du hingegen, dass kein User Agent auf das Verzeichnis /beispiel/ zugreifen kann, kannst du User-agent: * als Anweisung in deine robots.txt schreiben. Das Sternchen, welches man auch Wildcard nennt, steht in diesem Fall als Variable für alle Crawler.

Ebenfalls kannst du genau den gegenteiligen Effekt erzielen. Das klappt mit dem Slash (/). Verwendest du nur den Slash, wird deine gesamte Webseite von der Indexierung durch die Suchmaschinen ausgenommen. Um diese Anweisung zu geben, schreibst du User-agent: * und in der nächsten Zeile Disallow: /.

Fehler Nr. 2 – Du legst die robots.txt nicht im Stammverzeichnis ab

Der wahrscheinlich häufigste Fehler im Zusammenhang mit der robots.txt Datei ist, dass viele Webmaster sie nicht im Stammverzeichnis ihrer Webseite ablegen. Die User Agents untersuchen jedoch in der Regel nur das Root-Verzeichnis der Webseite nach der robots.txt. Unterverzeichnisse werden dabei außer Acht gelassen.

Legst du die Datei also nicht im Stammverzeichnis ab, haben die Crawler keine Möglichkeit, darauf zuzugreifen. Um diesen Fehler zu vermeiden, sollte die korrekte URL für deine robots.txt Datei folgendermaßen lauten:

https://www.deinewebsite.de/robots.txt

1	https://www.deinewebsite.de/robots.txt

So befindet sich die robots.txt-Datei direkt im Stammverzeichnis und ist für die User Agents gut auffindbar.

Fehler Nr. 3 – Du blockierst unabsichtlich Verzeichnisse

Die korrekte Syntax hat wie bereits erwähnt, eine sehr wichtige Bedeutung, wenn du eine robots.txt erstellst. Bereits kleinste Fehler in der Groß- und Kleinschreibung oder die unsachgemäße Verwendung von Sonderzeichen kann dazu führen, dass der Crawler die Anweisung missachtet und Seiten crawlt, die eigentlich nicht in den Index gelangen sollten.

Daher ist es ratsam, die robots.txt vor dem Ablegen in das Stammverzeichnis auf Flüchtigkeitsfehler und Unstimmigkeiten zu überprüfen. Hierbei solltest du unbedingt darauf achten, dass Verzeichnisse, die indexiert werden sollen, niemals hinter dem Befehl Disallow: stehen. Ansonsten ist dein Aufwand umsonst und die Verzeichnisse erscheinen nicht im Index der Suchmaschinen.

Sollte sich die Struktur deiner Seite beispielsweise aufgrund eines Relaunchs ändern, ist es ebenfalls empfehlenswert, die robots.txt Datei auf Fehler zu untersuchen und diese umgehend auszubessern.

Fehler Nr. 4 – Statt Verzeichnissen sperrst du Pfad-Bestandteile

Möchtest du ein bestimmtes Verzeichnis auf deiner Webseite sperren, solltest du nie den Slash am Ende des Verzeichnisnamens vergessen. Ansonsten wird bei dem Befehl Disallow: /beispiel nicht nur /beispiel/ gesperrt, sondern auch /beispiel-zwei.html.

Wenn du also mehrere Seiten von der Indexierung ausschließen möchtest, solltest du am besten für jedes Verzeichnis eine einzelne Zeile schreiben. Gibst du nämlich mehrere Pfade in einer Zeile an, kann dies zu ungewünschten Fehlern in der Indexierung führen.

Hier ein Beispiel mit dem Google Bot: Schreibe in der ersten Zeile User-agent: googlebot. In der darunter folgenden Zeile schreibst du Disallow: /beispiel/ und in der nächsten Zeile zum Beispiel Disallow: /beispiel-zwei.html. So stellst du sicher, dass nicht ein ganzer Pfad-Bestandteil gesperrt wird, sondern lediglich das gewünschte Verzeichnis.

Fehler Nr. 5 – Du erwähnst die Sitemap-URL nicht im robots.txt

Es ist ebenfalls ein beliebter Fehler, nicht den Standort der Sitemap in der robots.txt Datei anzugeben. Dies ist jedoch empfehlenswert, da du dem Crawler somit die Arbeit erleichterst. Der User Agent muss die Sitemap nicht selbst finden, da du sie bereits im robots.txt erwähnt hast.

Hat der Crawler weniger Arbeit, wirkt sich dies positiv auf deine Webseite aus. So sollte die Zeile für die Sitemap im robots.txt optimalerweise aussehen:

https://www.deinewebsite.de/sitemap.xml

1	https://www.deinewebsite.de/sitemap.xml

Beachte jedoch, dass nicht alle Suchmaschinen diesen Befehl unterstützen. Google, Bing, Yahoo und Ask können dem Befehl folgen.

Schlusswort

Wie du siehst, ist es mit dem richtigen Know-how ganz einfach möglich, eine robots.txt Datei zu erstellen, die zwar verhältnismäßig klein aber durchaus sehr bedeutsam ist.

Nun weißt du, welche beliebten Fehler du vermeiden solltest und kannst deine Webseite den Crawlern gezielt und strukturiert präsentieren.

Bewerte diesen Artikel

1 Bewertung(en), durchschnittlich: 5,00 von 5