Duplicate Content finden: So kannst du ihn aufspüren oder bereits im Voraus vermeiden!

Hast du dich darüber geärgert, dass deine Website komplett aus dem Google Index entfernt wurde? Dabei hast du nicht gegen die Google Webmaster Richtlinien verstoßen?

Die häufigste Ursache für ein schlechtes Ranking bei einer Suchmaschine wie Google ist ‘Duplicate Content’. Das heißt, der gleiche Inhalt ist unter zwei oder mehreren URLs erreichbar. Wenn man das richtige beziehungsweise falsche Los zieht, dann kann die eigene Website ganz und gar aus dem Index fliegen.

Die häufigsten Gründe für Duplicate Content:

Out-of-the-Box, Affiliate Werbemittel: Affiliate Werbemittel mit Standard-Linktext, Standard-Beschreibung und ohne eigene Inhalte sind gefährlich. Diese gibt es schon tausendfach in Netz und deswegen erzeugt man ohne eigene Inhalte nur ‘Duplicate Content’.
Identische Elemente: Webkataloge mit 1000 Kategorien, von denen 900 leer sind und lediglich 100 nur einen einzigen Eintrag haben sind nutzlos, eher sogar hinderlich. Schlecht sind auch Blogs mit zweizeiligen Artikeln und zwei Sidebars mit unendlich langer Linkliste. In den oben aufgeführten Fällen sind 90 % der Inhalte auf allen Seiten gleich und nur ein kleiner Teil jeder Seite einzigartig.
Content unter verschiedenen URLs aufrufbar: Wenn Inhalte unter /thema1/seite1.html und /seite1.html aufrufbar sind, ist das nicht gut. Noch schlimmer ist es, wenn intern auf beide Versionen verlinkt wird.
Unnötige Subdomains: Manchmal sind unter thema1.domain.de die gleichen Inhalte wie unter domain.de/thema1/ zu finden. Das sollte grundsätzlich vermieden werden.
WWW und Non-WWW: example.de sollte auf www.example.de weitergeleitet werden, oder umgekehrt. Sonst ist jede Unterseite zweimal vorhanden.
Doppelter Index: Intern darf nicht auf /index.html oder /index.php verlinkt werden, sondern der Link muss einfach auf das Root-Verzeichnis, also www.example.de/, zeigen. Diese Problematik wird zwar mittlerweile von Google erkannt, sollte jedoch ebenfalls vermieden werden.
Druckversionen: Druckversionen sollten immer per Robots.txt gesperrt werden.
Archive: Für Archive gilt das gleiche wie bei den Druckversionen.
SessionIDs: Session IDs zur Identifizierung des Users sollten auf jeden Fall, vermieden werden, denn der Google-Bot erhält bei jedem Besuch eine neue ID zugewiesen und geht dann fälschlicherweise davon aus, dass er eine andere Seite spidert.
Trackingparameter: Nutzt man Trackingparameter, zum Beispiel über Ref-Links, dann entsteht die gleiche Problematik. Statt dessen sollte man lieber Cookies verwenden.

Wenn du die wichtigsten Punkte, die hier aufgelistet sind, beachtest, dann bist du auf der sicheren Seite, dass deine Website nicht durch ‘Duplicate Content’ aus dem Index fliegt.

Bewerte diesen Artikel

25 Bewertung(en), durchschnittlich: 5,00 von 5

Die häufigsten Gründe für Duplicate Content:

Schreibe einen Kommentar Antworten abbrechen