Contenu dupliqué

Guide SEO > Contenu > Contenu dupliqué

Dans la vraie vie, le plagiat est juridiquement sanctionné par la loi. Sur Google, c’est pareil.

Par souci de qualité des résultats de recherche, le géant américain sanctionne très lourdement les contrevenants à cette règle.

Les risques ?

Une rétrogradation pure et simple dans les SERP, ou un ralentissement de l’indexation. Alors, êtes-vous en règle avec le duplicate content ?

Qu’est-ce que le duplicate content ?

Un contenu dupliqué, ou duplicate content, c’est un contenu copié purement et simplement depuis un autre site ou votre propre site internet. De façon générale, tout contenu que l’on retrouve de manière identique (ou quasiment identique) est considéré comme dupliqué. Google a d’ailleurs généré une définition officielle :

« Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires » On distingue donc deux types de duplicate content.

Le contenu dupliqué interne (sur un même site)

Ce sont des doublons directement présents sur votre site internet, suite à un problème de configuration, d’indexation ou de crawl des pages (d’autres raisons peuvent aussi l’expliquer). Exemples :

  • Deux URLs distinctes avec le même contenu
  • Plusieurs URLs pointant vers une même page
  • Balise TITLE, H1 et méta description similaires sur plusieurs pages
  • Plusieurs versions du site web (sous http ou https, avec ou sans préfixe www)

Si le Googlebot distingue vos contenus dupliqués comme un moyen de tromper son algorithme de pertinence, en vue d’espérer un meilleur positionnement dans les résultats de recherche et optimisation SEO (Search Engine Optimization), vous risquez d’être sanctionné pour pratique illégale et contraire aux règles du moteur de recherche.

Sachez cependant que les articles de sites de vente ecommerce (présents sur plusieurs boutiques), les versions imprimables des pages web et les pages mobiles différentes des pages desktop ne seront pas forcément perçus comme du duplicate content.

Le contenu dupliqué externe (depuis un site différent)

Considéré comme volé, et donc contraire aux droits d’auteur, le contenu dupliqué externe est un contenu copié depuis un site différent et collé sur votre propre site. Vous-même pouvez être victime de vol de contenu, sans pouvoir intervenir d’une quelconque manière. Ce qui est délicat, c’est l’incapacité de Google à retrouver l’auteur original du contenu, et va généralement attribuer le mérite au site qui a le plus d’autorité.

Exemple de duplicate content externe :

  • Utilisation du même texte pour des versions différentes d’un même produit sur un site e-commerce
  • Négative SEO : un référenceur Black Hat SEO vole votre contenu pour le publier sur des fermes de contenus
  • Copié-collé d’un contenu depuis un autre site web (entièrement ou partiellement)

Heureusement, des logiciels existent pour contrôler manuellement le duplicate content, à l’instar de Copyscape.

Vous pouvez également copier un paragraphe sur votre site, le coller dans la barre de recherche Google (en prenant soin de le placer entre des guillemets) et analyser les résultats, pour voir si d’autres versions de votre contenu existent. Essayez avec la phrase suivante :

« Le contenu dupliqué est la reproduction partielle ou totale de contenu existant sur son site ou sur un site extérieur. En général, on distingue 2 types de contenu dupliqué qui se traitent de façon totalement différente. »

Extrait de contenu d’un article de Miss SEO Girl

Pourquoi éviter le duplicate content ?

Dans un premier temps, le duplicate content fait entrer en concurrence deux versions du même contenu, ce qui crée une incompréhension de la part des moteurs de recherche. Les performances du contenu web (autorité, pertinence et confiance) sont donc dégradées, et risquent d’avoir du mal à positionner la page correctement dans les résultats de recherche. Pourquoi garder deux fois un même contenu dans la base de données Google ? Conserveriez-vous deux documents similaires chez vous ?

Rassurez-vous : bien que les référenceurs aient longtemps pensé le contraire, vous ne serez pas pénalisé ni désindexé par Google si vous disposez de contenu dupliqué sur votre site internet, sauf si vous avez copié ce contenu délibérément depuis le site de quelqu’un d’autre. En revanche, vous risquez fort de voir votre référencement SEO diminuer, au travers d’un ralentissement de l’indexation du site ou d’une perte de ranking.

Comment gérer le duplicate content ?

Heureusement, il existe différente manière de prévenir le duplicate content. Conseillées par Google même, ces actions vous éviteront des sanctions préjudiciables pour votre référencement naturel !

Définir une page canonique

Quand un contenu est accessible depuis plusieurs URLs, vous pouvez indiquer à Google quelle URL indexer : c’est ce que l’on appelle une URL canonique, qui fera autorité sur les autres. Google se garde cependant le droit de choisir une autre page comme page canonique, en fonction de la qualité du contenu par exemple.

Pour déclarer une URL canonique, vous devez préciser la balise suivante le code html de la partie <head> de la page concernée et de ses « sœurs jumelles » :

<link rel="canonical" href="http://site.fr/url-de-references.html" />

Découvrez ce que dit Google sur le sujet.

Faire des redirections 301

On retrouve ici un peu le même principe que l’URL canonique : dans votre fichier .htaccess, vous allez indiquer à Google quelle page indexer, en redirigeant la page dupliquée vers la page principale. De cette manière, vous aiguillerez les crawlers et les internautes vers la bonne URL, et éliminerez tout problème de duplicate content.

Des plugins existent sous WordPress pour faire des redirections 301 :

Indiquer à Google de ne pas indexer la page

En insérant la balise < meta name = « robot » content = « Noindex, Follow » > dans la partie <head> de la page dupliquée, vous indiquerez à Google de ne pas indexée la page, mais de l’explorer tout de même (important pour éviter de perdre des positions pour dissimulation de contenu dupliqué).

Utiliser Search Console

  1. Avec la Search Console de Google, vous serez prévenu en cas de contenu dupliqué sur votre site web.
  2. L’outil vous permettra aussi de corriger certaines erreurs, liées à la duplication de balises meta description et TITLE.
  3. Vous pourrez aussi définir votre domaine préféré (domaine canonique), qui servira à l’indexation de votre site web.

Eviter le contenu similaire

Imaginons que votre site e-commerce propose une table design, disponible en deux versions : une en rouge, et une en blanc. Deux solutions s’offrent alors à vous :

  1. Vous décidez de créer, pour ces deux versions, deux pages différentes. Dans ce cas, rédigez chaque page de manière différente : aucun contenu ne doit être similaire.
  2. Regroupez les informations sur les deux versions dans une seule page.

Comment vous défendre en cas de contenu dupliqué ?

Si vous avez constaté un vol de contenu directement depuis votre site internet, vous pouvez notifier une atteinte à vos droits d’auteur. Cependant, toute fausse déclaration peut vous soumettre à réparation, en versant des dommages-intérêts au site notifié.

Cliquez ici pour notifier une atteinte à vos droits d’auteur

En revanche, si vous êes pénalisé à cause de duplicate content sur votre propre site, vous pouvez demander à Google de réexaminer votre contenu, en vous rendant directement dans la Search Console.

En conclusion

Pour référencer correctement une page dans les résultats de recherche Google, le contenu doit être 100% unique, et apporter une véritable valeur ajoutée à vos internautes.

Si votre site internet présente du contenu dupliqué, il n’est pas trop tard : en réglant les problèmes de contenu dupliqué, vous indiquerez à Google les pages vraiment intéressantes, diminuerez son budget crawl et concentrerez ses efforts sur les autres contenus.