Vous cherchez quelque chose ?

Duplicate content : conséquences et solutions


Que faire en cas de duplicate content ? Comment éviter les pénalités Google ? Voici quelques éléments de réponse.


 Algorithme Google


Le duplicate content

Un cas de duplicate content se produit lorsque la même version d'un contenu apparaît sur un même site ou des sites différents d'après Navneet Kaushal, et nous sommes du même avis. S'il concerne un même site, le moteur de recherche aura des difficultés à choisir la page à référencer. S'il concerne différents sites, le moteur référencera la version qu'il considère comme originale et déclassera les autres. D'autres cas peuvent se produire : le contenu affiché est celui ayant été crawlé en premier par les bots, le positionnement du contenu dupliqué dans les pages de résultats est retardé ou celui-ci n'est affiché sur aucune requête puisque le moteur n'arrive pas à déterminer quelle page doit être affichée. Parmi les différentes causes du duplicate content, on peut citer :

  •  l'existence de paramètres spécifiques dans les URL ;
  • l'existence de versions imprimables entraînant du duplicate content si différentes versions d'une page sont indexées ;
  • l'existence de différentes sessions ID attribuées aux visiteurs d'un site web ;
  • les fiches produits reproduisant les mêmes caractéristiques d'un produit d'un site à l'autre ;
  • l'utilisation de différentes URL ou domaines pour les versions mobiles de sites ;
  • la disponibilité simultanée d'une page en version www et non-www ;
  • le scraping, les pages d'archives, la page d'accueil ou l'architecture d'un site comprenant plusieurs chemins sont également en cause.

Dans tous les cas, il existe de nombreux outils offrant au webmaster la possibilité de repérer un contenu dupliqué pour ne pas être déclassé dans les pages de résultats de recherche. Matt Cutts lui-même a donné diverses recommandations afin de prévenir ce genre de problème et éviter les pénalités de l'algorithme Penguin qui vise entre autres ce genre de pratique. Étant donné que certains sites reproduisent tout ou partie d'un contenu en connaissance de cause, la mise en oeuvre de ces recommandations peut être indispensable.

Résoudre le problème du duplicate contentFace à un cas de duplicate content, de nombreuses options sont envisageables. Il est par exemple possible de mettre en place des redirections 301 depuis la page du contenu dupliqué vers celle présentant le contenu original. Cette option est fréquente dans le cadre d'un changement de nom de domaine, mais on peut également l'appliquer si les pages sont celles d'un même site. Si le contenu dupliqué se trouve sur un autre site, l'utilisation d'une balise rel=canonical s’avère la solution la plus efficace. La balise indique en effet aux bots quelle page doit être affichée dans les pages de résultats. Elle se trouve généralement sur le header de la page web. Autre solution possible : l'utilisation de balises meta pour indiquer aux bots quelle page ne doit pas être indexée. Dans le cas où l'on décide de faire publier un contenu sur d'autres sites, il est important de s'assurer que les sites en question renvoient des liens vers le site original. Il est cependant également possible de leur demander d'utiliser des liens en no follow. Si de nombreuses pages proposent un contenu identique, il est recommandé de réunir toutes les informations.

Pour les sites ayant une version mobile, la solution la plus courante consiste à proposer une URL identique d'une version à l'autre ou concevoir un site responsive et éviter ainsi la gestion de plusieurs contenus. Google recommande d'ailleurs le passage au responsive depuis longtemps et les sites adoptant cette démarche sont privilégiés par rapport aux autres. Il teste d'ailleurs depuis quelques semaines une fonctionnalité permettant aux internautes d'identifier rapidement quel contenu est responsive ou non. Pour ce qui est des articles invités au sein d'un site, il est recommandé de vérifier le taux de plagiat avant la publication. Le plagiat affecte non seulement le référencement, mais également la réputation surtout s'il se produit au sein d'un site d'autorité. Il en est de même pour la stratégie de linking interne : l'idéal est d'adopter un format unique pour éviter la mauvaise interprétation de la part des robots d'indexation. Enfin, il faut savoir que Google autorise généralement les éditeurs de sites web à contrôler le crawl d'un contenu. Ceux-ci ont en effet la possibilité de choisir la page devant être crawlée ou non. Ils peuvent même décider de quelle manière se fera l'indexation.

Google Webmaster Tools est l'outil le plus utilisé pour prévenir le duplicate content. Il sert par exemple à identifier les plagiats dans la meta description ou la description du titre. Il suffit de se connecter à son compte et d'aller dans la page Diagnostic puis Suggestions HTML. On accède alors à un tableau indiquant les balises de titre et méta descriptions dupliquées. En cliquant sur les liens proposés, l'utilisateur accède directement à l'URL où se trouvent les doublons. D'autres outils comme Siteliner ou ScreamingFrog offrent toutefois les mêmes possibilités. Il suffit de saisir l'URL du site web et lancer la recherche sur Siteliner pour obtenir un rapport complet sur le duplicate content, les liens brisés et les pages ignorées au cours de l'indexation. En cliquant sur duplicate content dans l'onglet Détails de site, on accède par exemple aux URL, titres, mots correspondants, pages correspondantes et pourcentage des correspondances. ScreamingFrog peut quant à lui crawler plus de 500 pages gratuitement pour identifier les URL contenant du plagiat. Il reste ensuite à corriger le problème à l'aide d'une des solutions présentées plus haut.

Autres solutions contre le contenu dupliqué : Xenu, Virante Duplicate Content Checker et SmallSeoTools. Xenu recherche les liens brisés et offre même la possibilité d'exporter le rapport vers Excel. L'analyse est dans ce cas plus facile. Virante Duplicate Content Checker est quant à lui utilisé pour identifier les doublons dans un même site. Il vérifie le cache de Google, les erreurs 404 et les versions www et non-www d'une même page. Enfin, SmallSeoTools identifie le duplicate par simple copier/coller d'un article dans l'outil. Il est en mesure de déterminer le taux de plagiat d'un contenu. Il suffit d'insérer ce dernier dans la case jaune prévue à cet effet, de saisir le code Captcha et cliquer sur le bouton Check for Plagiarism. Les parties ayant été copiées sur d'autres sites sont marquées en rouge et il est possible de découvrir la source originale en cliquant sur les parties surlignées.

En savoir plus sur les autres algorithmes de Google


Si vous ne trouvez pas la chronique correspondante à votre recherche, c'est peut-être l'occasion de la rédiger ;-)

Proposer ma chronique

Aimez-vous cet article ?

Nos réseaux préférés

Ajouter un commentaire

Commentaires (2)