Duplicate Content in WordPress verhindern

7 Kommentare Geschrieben am 16. August 2011 von Nils Kattau Schlagworte: , , Kategorie: WordPress
Duplicate Content in WordPress verhinden Duplicate Content in WordPress verhinden

Wer ein wenig vertraut ist mit Suchmaschinenoptimierung / SEO, weiß um die Gefahren von Duplicate Content. Aufgrund der dynamischen Seitenstruktur von WordPress ist diese CMS- (oder Blog-) Plattform sehr anfällig für genanntes Problem: Inhalte sind auf verschiedenen Wegen erreichbar. So kann der User in einem gut sortierten WordPress Blog ein und denselben Artikel über diverse Wege – und somit über diverse URLs – erreichen.

Wie Duplicate Content in WordPress entsteht

An folgendem Beispiel möchte ich das Problem der doppelten Inhalte veranschaulichen. Nehmen wir an, Sie schreiben einen Blog-Artikel über Webdesign. Je nach Permalink-Einstellungen erreichen Ihre Besucher den Artikel nach der Veröffentlichung beispielsweise über die URL http://www.domain.tld/unglaublich-guter-artikel-ueber-webdesign/.

Permalink-Einstellungen sind in WordPress verantwortlich für die URL-Struktur Ihrer Website. Für lesbare und suchmaschinenfreundliche URLs geben Sie unter Einstellungen > Permalinks in WordPress als Struktur /%category%/%postname%/ an.

Soweit ist alles in Ordnung. Da WordPress jedoch über eine mächtige Archiv-Funktion verfügt, stehen dem Nutzer zusätzlich folgende URLs zur Verfügung, um zu Kopien des Artikels zu gelangen:

Kategorie: http://www.domain.tld/kategorie/webdesign/
Webdesign Tag: http://www.domain.tld/tag/webdesign/
Photoshop Tag: http://www.domain.tld/tag/photoshop/
HTML-Tag: http://www.domain.tld/tag/html/
Archiv (täglich): http://www.domain.tld/2011/10/09/
Archiv (monatlich): http://www.domain.tld/2011/10/
Archiv (jährlich): http://www.domain.tld/2011/
Archiv (Author): http://www.domain.tld/author/schoener-name/

Wie Sie sehen, gibt es reichlich Duplicate Content, welcher Ihr Ranking in den Suchmaschinen negativ beeinflusst. Doch zum Glück stehen uns einige Wege zur Verfügung, um dieses Problem effektiv zu beheben.

Meta noindex & nofollow Tags

Die Indizierung einzelner Seiten in Google & Co. kann man über spezielle Meta-Tags beeinflussen, welche sich im <head>-Bereich Ihrer WordPress Seiten finden. Werfen Sie einen Blick auf die header.php Datei Ihres Themes, dürften Sie hier bereits Meta-Tags finden. Der Meta-Tag, welcher für Suchmaschinen-Crawler (auch Spiders genannt) zuständig ist, nennt sich “robots” und sieht z.B. so aus:

<meta name="robots" content="noindex,follow" />

Dieses Beispiel sagt den Suchmaschinen “nehmt diese Seite nicht in euren Index auf, aber folgt den Links auf dieser Seite zu anderen Seiten”. Alternativ wäre ein index,follow (was man sich sparen kann, da dies das Standardverhalten der Crawler ist) oder z.B. ein index,nofollow,noarchive,noodp möglich. noarchive verhindert an dieser Stelle das Speichern von älteren Versionen der Seite über den Google Cache, während noodp verhindert, dass die Suchmaschine Informationen aus dem Open Directory Project (http://www.dmoz.org; tragen Sie Ihre Website hier unbedingt ein; eine Aufnahme und somit ein Backlink auf Ihre Website ist goldwert) bezieht.

Genug der Theorie. Hier ein effektives Beispiel für den Einsatz von Meta-Robots-Tags in WordPress:

<?php if(is_home() && (!$paged || $paged == 1) || is_single()) { ?>
<meta name="googlebot" content="index,archive,follow,noodp" />
<meta name="robots" content="all,index,follow" />
<meta name="msnbot" content="all,index,follow" />
<?php } else { ?>
<meta name="googlebot" content="noindex,noarchive,follow,noodp" />
<meta name="robots" content="noindex,follow" />
<meta name="msnbot" content="noindex,follow" />
<?php } ?>

Fügt man dieses Beispiel in den <head> seiner WordPress-Website ein, teilt man den Crawlern folgendes mit:
Wenn die aktuell angezeigte Seite die Homepage oder eine Single Post Page ist, dann erlaube Suchmaschinen, die Inhalte zu indizieren und Links zu folgen.
Ist die Seite nicht die Homepage oder eine Single Post Page, handelt es sich vermutlich um eine Tag-, Kategorie- oder andere Archiv-Seite, welche als Duplicate Content gilt. Folge deshalb hier allen Links, aber indiziere die Seiten nicht.

Nofollow-Links

Wenn Sie verhindern wollen, dass einzelnen Links gefolgt wird, können Sie im HTML Code der jeweiligen Links ein rel=”nofollow” einfügen. Zum Beispiel: <a rel="nofollow" href="http://www.google.de">Ich bin ein Link</a>

Vorsicht: Wenn Sie innerhalb einer Seite einem Link das nofollow-Attribut zuweisen, wird der Crawler auch allen anderen Links innerhalb dieser Seite mit dem selben Ziel nicht folgen.

Vermeidung von Duplicate Content mit einer robots.txt

Anstatt Meta Tags zu nutzen (oder gleichzeitig), kann man Suchmaschinen mit einer robots.txt mitteilen, was zu tun ist. Zu diesem Zweck möchte ich Ihnen die Universal-WordPress-robots.txt, welche wir in unserer Internetagentur nutzen, zum Download anbieten.

Jetzt robots.txt kostenlos herunterladen

Ein Blick in die robots.txt

Zwar ist die robots.txt mit nur sieben Zeilen Code extrem schlank, gleichzeitig ist sie jedoch weitaus effektiver als die meisten robots.txt-Dateien für WordPress, die im Internet kursieren. Sie verbietet Suchmaschinen den Zugriff auf Administrations-Verzeichnisse und reine Template-Dateien, auf RSS-Verzeichnisse, Trackback-Verzeichnisse sowie Archive. Auch wird der Pfad zu einer XML Sitemap definiert, welche Crawlern das Durchstöbern Ihrer Webseiten erleichtert. Eine XML Sitemap ist mit WordPress kinderleicht automatisch erstellt und dringend empfohlen. Installieren Sie hierfür einfach das Google XML Sitemaps Plugin. Wenn Sie keine XML Sitemap nutzen, löschen Sie die letzte Zeile aus der robots.txt.

Um die robots.txt zu verwenden, laden Sie sie in Ihr WordPress-Root-Verzeichnis. Dies ist das Verzeichnis, in dem Sie die Ordner wp-admin, wp-content, wp-includes und die Datei wp-config.php, sowie viele weitere finden.

Canonical URLs

Ein weiterer Weg zur Vermeidung doppelter Inhalte sind sog. Canonical Link Tags. Diese besonderen Tags wurden im Februar 2009 von Google, Yahoo und Microsoft zur Bekämpfung von ungewolltem Duplicate Content eingeführt. Diese teilen dem Crawler der Suchmaschine mit, welches die “Basis”-URL einer bestimmten Seite ist. Die Verwendung in WordPress ist zu empfehlen und denkbar einfach. Fügen Sie einfach im <head>-Bereich Ihrer Website (in der Regel zu finden in der header.php) folgenden Code ein:

<?php if ( is_singular() ) echo '<link rel="canonical" href="' . get_permalink() . '" />'; ?>

Es gibt weitere Wege zur Vermeidung von Duplicate Content, jedoch würde die Erläuterung dieser den Rahmen dieses Blog-Artikels sprengen. Ich hoffe, ich konnte Ihnen effektiv bei der Vermeidung von Duplicate Content und somit eventuell einer besseren Platzierung in den Suchmaschinen helfen. Über Fragen und Anregungen in den Kommentaren freue ich mich.


7 Kommentare

  1. Danke für den interessanten Beitrag mit viel Hintergrundwissen. Es gibt div. Plugins die diese Arbeiten abnehmen.Grundsätzlich sollte man das Thema Duplicate Content nicht zu unterschätzen. Grüße aus Hamburg

  2. Marco Rieder sagt:

    Mittlerweile ist Duplicate Content innerhalb der selben Domain kein Problem mehr bei Google.

  3. Marcel sagt:

    Schöner Artikel, leicht, sachlich und vor allem auch für Nicht-SEO´s leicht verständlich.

  4. Marco G. sagt:

    @Marco da bin ich mir nicht ganz so sicher! (Bin noch in der Testphase)
    Den Artikel finde ich sehr gut, wer aber keine PHP kann bzw. nicht weiß wo er deinen Code Schnippsel einbauen soll, sollte mal die Kombination DC WordPress Plugin bei google eingeben, die Suchergebnisse liefern einige interessante Plugins…
    Gruß
    Marco

  5. Nils Kattau sagt:

    Wenn du behauptest, dass Duplicate Content kein Problem mehr ist, wieso hat Google dann Canonical Tags eingeführt? Zu deiner Aussage wäre eine Quellenangabe interessant, denn die Wahrheit der Aussage wage ich ma zu bezweifeln ;-)

  6. Uwe sagt:

    Ich bin gerade dabei zum Jahreswechsel meine Seiten durchzusehen. Und ein neues Projekt zu starten. Wobei das Thema DC natürlich auch gleich am Anfang steht. Das problem mit plugins zu lösen ist bestimmt eine Option wenn man den Blog auch regelmässig updated und der entwickler des plugins sein Plugin aktuallisiert. Nebenbei machen diese WordPress SEO plugins noch viele andere Dinge ob da der Einsteiger weis was er macht möchte ich stark bezweifeln.

    Ich werde mich bei dem neuen Projekt auf die canonical Geschichte und eine kleine robots.txt verlassen.

    Ist schnell gemacht und dann muß ich mich nicht mehr kümmern.

  7. […] diesen Duplicate Content wieder los zu werden ist Gegenstand im Artikel von Nils Kattau – Duplicate Content in WordPress verhindern. Ein darin beschriebener Weg die betroffenen Seiten von Indizierung auszuschließen aber den […]



Signals Media auf Facebook Folgen Sie uns auf Twitter Ihr Ansprechpartner Dennis Oderwald auf XING Ihr Ansprechpartner Dennis Oderwald in Skype
Fordern Sie Ihr kostenloses & unverbindliches Angebot an ›› Wir wünschen Ihnen viel Spaß auf unseren Internetseiten und einen grandiosen 22. Juni!

Fordern Sie Ihr kostenloses & unverbindliches Angebot an:

Betreff:

Ihre Nachricht: (Pflichtfeld)

Ihr Name: (Pflichtfeld)

Ihre E-Mail-Adresse: (Pflichtfeld)

Ihre Telefonnummer:

 Ich bitte um Rückruf. (Bitte Telefonnr. angeben) Ich bitte um ein kostenloses und unverbindliches Angebot.