Vous cherchez quelque chose ?

Contenu dupliqué : les éléments à examiner rapidement


Cet article a été revu et mis à jour la dernière fois le 08 Septembre 2016 à 10:12

Le duplicate content est un phénomène qui touche de plus en plus de sites web pouvant affecter grandement leur positionnement sur les résultats des moteurs de recherche. Vue d’ensemble sur les principaux points à analyser pour éviter les pénalisations.

Comprendre le duplicate content

Compte tenu du nombre de sites web qui sont créés tous les jours, les internautes ont l’embarras du choix en matière de recherches. Seulement, plusieurs plateformes n’offrent pas souvent les résultats escomptés. Les principaux moteurs de recherche, notamment Google, Yahoo et Bing développent constamment de nouveaux algorithmes afin d’offrir à leurs utilisateurs les meilleurs des résultats en détectant les contenus dupliqués proposés sur la toile.

L’expression Duplicate Content a toujours été l’une des préoccupations majeures des webmasters dans la mesure où les sanctions appliquées aux sites publiant du contenu en double sont très sévères. Cette pratique est considérée comme trompeuse n’offrant pas d’informations pertinentes aux internautes. Outre le déclassement, certains sites risquent même de ne plus apparaître dans les résultats de recherche, en particulier sur Google.

Pour faire court, le duplicate content désigne un même contenu publié sur différents sites ou pages web. Il existe plusieurs formes de DC, mais la plus courante est la similitude d’un contenu que l’on peut retrouver dans les pages d’un seul site ou sur des noms de domaines différents.

Ces derniers peuvent en effet afficher un même contenu, soit à cause d’une mauvaise conception, par l’utilisation de technologies inadaptées ou de façon intentionnelle en vue d’améliorer le positionnement d’un site dans les résultats de recherche. Dans tous les cas, des sanctions peuvent être appliquées aux sites dont le contenu n’est pas unique.

Comme tous les autres moteurs de recherche, Google considère qu’il y a duplicate content dès lors que plus de 70 % du contenu textuel d’une page web présente des ressemblances à une autre, même involontairement. Une analyse régulière s’impose donc afin de détecter la présence d’un contenu double sur son site ou sur celui de la concurrence. Différents outils peuvent être exploités pour éviter les pénalisations de Google, mais la première étape consiste à détecter les potentielles sources du problème pour les rectifier par la suite.

Nombreuses sont les causes du duplicate content. Elles peuvent être à l’intérieur du site, mais également dans des sources externes. Toutefois, des solutions existent pour réduire les risques de pénalités de la part des moteurs de recherche.

Les points suivants sont une liste non exhaustive des raisons qui peuvent engendrer les sanctions de Google. Il s’agit des cas fréquents que l’on rencontre souvent et que le géant d’Internet préconise de surveiller régulièrement.

Récemment, Google a incité les webmasters et les propriétaires de sites web d’intégrer le protocole HTTPS dans leurs URLs. Ce dernier est de plus en plus utilisé, notamment pour sécuriser les sites e-commerces qui proposent des produits ou services via des paiements en ligne.

Seulement lorsqu’on décide de migrer un site HTTP vers le protocole HTTPS, des doublons pourront survenir si la procédure n’est pas correcte. Pour vérifier la présence d’un doublon, il suffit de faire le test. Si des pages s’affichent à la fois en HTTP et en HTTPS, le meilleur moyen de supprimer le contenu dupliqué est de :

  • Créer un nouveau fichier robot : « robot_ssl.txt » et l’intégrer dans la racine du site
  • Rajouter les lignes : User-agent « * » et Disallow « / »
  • Placer une règle de réécriture dans le nouveau fichier en y intégrant les lignes : RewriteCond %{SERVER_PORT} 443 [NC] et RewriteRule ^robots.txt$ robots_ssl.txt [L].

Par ailleurs, le doublon peut être évité en faisant une redirection 301 afin de permettre aux robots de Google d’indexer uniquement le domaine indiqué. Les redirections 301 ou « Redirect Permanent » sont également utilisées lors de restructuration de site. Elles permettent de rediriger facilement les moteurs de recherche et les utilisateurs vers les URLs nouvellement créées, et donc supprimer toute source de duplicate content.

Le DC peut être causé par des sources internes, et cela de façon involontaire, notamment à cause de votre CMS. Ce dernier crée parfois des URLs à rallonge et inutiles qui provoquent des contenus en double. Il pourra donc y avoir un problème de duplication d’URLs avec et sans les « WWW ».

Tout comme avec le problème rencontré plus haut, une vérification des contenus du site avec et sans le www s’impose pour déterminer s’ils sont similaires. Si la page http://www.exemple.com affiche le même contenu que http://exemple.com, il faudra ajouter deux lignes dans le fichier « .htaccess » pour permettre de réécrire les pages sans le www vers les pages avec le www, à savoir :

  • RewriteCond %{HTTP_HOST} ^monsite.com$
  • RewriteRule ^(.*) http://www.monsite.com/$1 [QSA,L,R=301]

Parfois, on rencontre des cas légitimes par lesquels plusieurs URLs comportent le même contenu. C’est généralement le cas des sites e-commerces qui proposent plusieurs produits ou services identiques.

Selon le CMS utilisé, le site peut créer des paramètres spécifiques dans ses URLs pour plusieurs raisons : source de provenance des produits, informations de session des internautes, tris... Logiquement, les descriptions des produits peuvent ressembler à la différence de leur prix, leur couleur ou leur taille. Pour éviter les doublons, deux solutions sont possibles :

  • Créer une description unique pour chaque produit
  • Mettre en place des URLs canoniques dans la balise « Head » pour préciser aux moteurs de recherche l’URL de référence pour chaque page.

Le code HTML permettant d’indiquer les URLs canoniques est :

<link rel="canonical" href="url de référence"/>

Bon nombre de sites proposent actuellement des versions linguistiques différentes afin de toucher un maximum de cible. Cependant, si le site est accessible dans plusieurs langues et dans des pays différents, le contenu de chaque page dans la même version ne devra pas être similaire pour éviter la duplication de contenu.

Au cas où le contenu de la page http://www.exemple.com/fr-fr est identique à la page http://www.exemple.com/fr-ca par exemple, il est vivement conseillé de mettre en place l’attribut de langue alternative. Pour ce faire, il suffit d’intégrer dans la balise « Head » de chaque page les liens qui pointent vers les autres versions linguistiques du site comme les exemples suivants :

<link rel="alternate" href=http://www.exemple.com/fr/" hreflang="fr"/>

<link rel="alternate" href=http://www.exemple.com/fr-ca/" hreflang="fr-ca"/>

<link rel="alternate" href=http://www.exemple.com/fr-be/" hreflang="fr-be"/>

Toutes les langues proposées par le site doivent suivre cette règle.

Un problème de duplication peut survenir suite à des paginations de pages. Techniquement, cela arrive lorsque des pages de catalogues ou des articles sont décomposés en plusieurs pages. Il est vrai que chaque page contient des contenus différents, mais les descriptions dans les balises « Title » et « Méta description » restent les mêmes. Dans ce cas, il s’agit d’un DC.

Pour y remédier, il faut intégrer dans la section <Head> de la page concernée des codes HTML <link /> pour renvoyer vers les pages précédentes et suivantes. Voici un exemple plus clair :

  • Sur la page 1 : <link rel= "next" href= "mon-catalogue-2" />
  • Sur la page 2 : <link rel= "next" href= "mon-catalogue" /> et <link rel= "next" href= "mon-catalogue-3" />

Et ainsi de suite jusqu’à la dernière page.

D’autres sources externes sont susceptibles de provoquer des problèmes de duplication et peuvent pénaliser un site web, à savoir :

En matière de référencement naturel (SEO), la syndication de contenu peut probablement occasionner des problèmes de duplication de contenu. Il s’agit d’un procédé par lequel le contenu d’un site internet est publié de façon dynamique et automatisée sur d’autres plateformes. La syndication de contenu peut être un accord de visibilité ou un accord de prestation de contenus payants. C’est souvent le cas des flux RSS.

Au cas où un site propose un fil RSS, il est recommandé de diffuser un court extrait d’une information que les moteurs de recherche ne considéreront pas comme une ressource dupliquée.

En bref, le duplicate content peut survenir à tout moment sans que l’on s’aperçoive. Deux bonnes pratiques existent pour éviter les sanctions de Google :

  • Surveiller régulièrement son site via les outils proposés sur Google Search Control
  • Créer des contenus attractifs et uniques pour attirer du trafic qualifié et optimiser son SEO

Seolius vous propose différentes stratégies pour améliorer efficacement votre visibilité sur la toile.


Si vous ne trouvez pas la chronique correspondante à votre recherche, c'est peut-être l'occasion de la rédiger ;-)

Proposer ma chronique

Aimez-vous cet article ?

Nos réseaux préférés

Ajouter un commentaire