Sommaire
Qu’est-ce que le contenu dupliqué ?
Le contenu dupliqué (“duplicate content” en anglais) est un contenu copié à l’identique en deux endroits d’une ou plusieurs pages web. On parle de duplication externe lorsqu’il existe une similarité forte de contenu entre deux URL situées sur deux domaines différents, et de duplication interne lorsqu’un même contenu est présent plusieurs fois à l’intérieur d’un même domaine.
Google pénalise-t-il le contenu dupliqué ? Un contenu similaire peut-il nuire à votre référencement naturel ? Quels outils permettent de le détecter ? Comment le corriger ? Avant de répondre à toutes ces questions, revenons un instant sur la distinction entre contenu dupliqué externe et interne à travers quelques exemples.
Le contenu dupliqué externe
Le contenu dupliqué externe est une réplication de contenu inter sites. Il s’agit d’un même contenu présent sur deux noms de domaine différents. Par définition, il ne prend donc pas en compte les pages internes d’un site situées sur un même domaine. Un même contenu présent sur :
- www.site1.fr/ma-page et blog.site1.fr/autre-page n’est pas un contenu dupliqué externe mais interne (même nom de domaine)
- www.site1.fr/ma-page et blog.site2.fr/autre-page est un contenu dupliqué externe (noms de domaine différents)
Le contenu dupliqué interne
Le contenu dupliqué interne est une réplication de contenu intra site : il s’agit d’un même contenu présent plusieurs fois sur le même domaine.
Un cas courant de contenu dupliqué que l’on détecte souvent lors d’un audit (et celui auquel on pense en général le moins) est l’accès direct aux pages avec et sans le www. Même risque entre le HTTPS et HTTP dans le cadre d’une migration mal effectuée. Faciles à corriger via la mise en place d’une redirection permanente, ces oublis produisent une réplication de 100% de vos pages. Autre cas fréquent : les URL accessibles avec et sans le / final, par exemple www.site.fr/ma-page et www.site.fr/ma-page/
D’autres exemples de contenus dupliqués internes parmi les plus courants :
- des URL avec des ordres différents de paramètres : www.site.fr/ma-page?couleur=bleue&taille=xl et www.site.fr/ma-page?taille=xl&couleur=bleue (se produit souvent dans le cadre d’une navigation à facettes mal maîtrisée sur un site e-commerce),
- des fiches produits à faible périmètre variant : www.site.fr/pantalons/pantalon-taille-w32/ et www.site.fr/pantalons/pantalon-taille-W33/ dont on devine que les contenus ne diffèrent que par un seul attribut,
- une réécriture d’URL mal configurée permettant l’indexation des URL non réécrites : www.site.fr/pantalons/pantalon-taille-w32/ et www.site.fr/pantalons/pantalon?taille=w32
- des PDF qui reprennent avec exactitude le contenu de vos pages…
Google pénalise-t-il le contenu dupliqué ?
On peut d’ors-et-déjà couper court aux idées fausses : Google ne pénalise pas le contenu dupliqué externe. Aussi bien pour le site copieur, que le site plagié. Plus exactement, le moteur de recherche considère ce qu’on appelle la page canonique, c’est à dire la page qui d’après son évaluation ressort comme étant la plus originale et la plus pertinente à ses yeux (l’algorithme Google se base sur des critères comme la date de première découverte, le nombre de backlinks reçus et le PageRank). C’est donc cette page qui aura la priorité de visibilité dans les résultats de recherche. Ses copies ne seront pas directement pénalisées (au sens ou aucun malus ne leur sera attribué). Google va tout de même les indexer mais elles bénéficieront d’une visibilité moindre (car évaluées comme moins pertinentes sur les mêmes critères).
Concernant le contenu dupliqué interne, même verdict pour l’heure : Google ne va pas pénaliser directement votre site en lui attribuant un malus. Mais votre référencement en souffrira tout de même en raison de la concurrence de contenu générée :
- vous n’aidez pas Google à choisir la page la plus pertinente à positionner entre plusieurs pages aux textes dupliqués (qui adressent, de fait, les mêmes requêtes),
- vos pages similaires vont gaspiller le temps de crawl alloué à votre site par Google (au détriment des pages pertinentes non dupliquées),
- vous risquez d’obtenir une popularité diluée via des liens entrants, partagés entre vos pages similaires (plutôt que d’avoir 100% des liens pointant vers la même page).
Méfiez-vous du Panda !
Certains d’entre-vous ont peut-être déjà entendu parler de Google Panda, cet algorithme (du nom de l’ingénieur Navneet Panda) lancé par Google le 24 février 2011 qui dévalue les contenus de mauvaise qualité. Alors que son redouté frère – Google Penguin – s’attaque à la qualité des liens, Panda agit comme un filtre pour « nettoyer » les résultats de recherche. Depuis fin 2015/début 2016 le filtre, qui était jusqu’alors déployé par vagues, est intégré au coeur de l’algorithme de Google.
Quel rapport avec le contenu dupliqué me direz-vous ? Eh bien, même si Google ne considère pas directement le contenu dupliqué comme étant un critère de pénalisation, une similarité interne trop importante et mal gérée peut conduire à indexer des pages de faible qualité en masse, n’apportant rien à l’internaute (i.e. aucune valeur ajoutée). Vous pouvez ainsi tomber sous le coup d’une pénalité Panda pour plusieurs de vos pages (ou votre site tout entier) et voir votre positionnement chuter.
Comment trouver le contenu en doublon sur son site ?
Plusieurs outils existent pour détecter le contenu dupliqué. Citons parmi les plus connus : Copyscape, Kill Duplicate pour le duplicate content externe et Siteliner pour le duplicate content interne. Enfin, rien de tel qu’un audit SEO incluant un crawl complet de votre site pour révéler les problèmes de contenus dupliqués (et en avoir une vision d’ensemble avant d’attaquer la phase d’optimisation).
Comment corriger les problèmes de contenus dupliqués externes ?
Dans le cas ou quelqu’un a copié votre contenu, sachez que la loi interdit le plagiat et que vous êtes en droit d’exiger son retrait (cf. code de la propriété intellectuelle). Vous pouvez dans un premier temps contacter le webmaster du site identifié pour lui demander de retirer votre contenu. Si après plusieurs courriers et relances vous n’obtenez pas de réponse favorable, vous pouvez passer à l’étape suivante : contacter l’hébergeur du site incriminé (captures d’écrans et listes d’URL à l’appui) ou passer par un avocat spécialisé dans le droit d’auteur.
Comment corriger les problèmes de contenus dupliqués internes ?
Si votre problème de contenu dupliqué est interne, il vous faut en localiser la cause puis mettre en place les actions nécessaires :
- résoudre ce qui génère le contenu dupliqué (par la mise en place d’une réécriture d’URL, d’un changement de configuration au niveau du back-office de votre CMS, si vous en utilisez-un, ou un développement spécifique),
- renseigner sur vos pages des URL canonical (pour que les moteurs n’indexent plus que les pages originales sans leurs copies) et des redirections 301 depuis les pages dupliquées vers les originales,
- si vous le pouvez, une fois les corrections effectuées : soumettre à Google un sitemap contenant les URL dupliquées pour accélérer leur désindexation