Vous cherchez quelque chose ?

Guide pratique pour mieux comprendre le Duplicate Content et en finir définitivement


Cet article a été revu et mis à jour la dernière fois le 04 Juin 2017 à 10:47

Le Duplicate Content peut être une véritable plaie pour le bon référencement dans les résultats de recherche. Pour s'en débarrasser efficacement, on vous explique ce qui peut l'occasionner et les bonnes pratiques pour s'en débarrasser efficacement.

De façon simple et pratique, on parle de duplicate content (ou contenu dupliqué) à propos d’un contenu, lorsqu’il est présent sur deux ou plusieurs pages différentes. Véritable bête noire des webmasters, le contenu dupliqué pose un souci majeur aux moteurs de recherche. En effet, lorsque Google, ou un autre moteur de recherche, tombe sur un même contenu présent sur deux ou plusieurs sources (ou URLs) différentes, il lui est alors complexe de déterminer quelle version du contenu est la plus pertinente, et mérite d’être positionnée en résultat prioritaire d’une requête donnée. Dans le cas d’espèce, les moteurs de recherches sont dans l’obligation de ne choisir qu’une version à afficher. Et afin de garantir à l’utilisateur une expérience de recherche optimale, c’est la version qui est considérée comme la plus susceptible d’être l’originale, ou celle qui est la plus qualitative selon l’algorithme du moteur de recherche, qui sera présentée comme résultat de requête privilégié. Cela pose trois problèmes majeurs.

Comme nous venons de le mentionner plus haut, le contenu plagié pose certaines difficultés aux  moteurs de recherche. De façon concrète, on peut les résumer en 3 points :

  • Les moteurs de recherche ne savent pas quelle(s) version(s) inclure ou exclure de leurs index
  • Les moteurs de recherche ne savent pas s’il est préférable d’orienter les statistiques de liens (autorité, fiabilité, texte d’ancre, jus des liens, etc.) vers une seule page ou s’il vaut mieux les répartir entre les différentes versions du contenu.
  • Les moteurs de recherche ne savent pas quelle(s) version(s) classer dans les résultats de recherche

De ce fait, le duplicate content occasionne des pertes de trafic pour les propriétaires de sites web concernés, ainsi qu’un mauvais classement de certaines pages. Pour les internautes qui effectuent des recherches, ce problème affecte la pertinence des résultats.

Elles sont principalement de trois ordres :

Le duplicate content peut être occasionné par les paramètres des URL comme le click tracking et certains codes analytiques.

Paramètres des URL

L’une des autres sources de duplicate content est la création de versions formatées pour l’impression. En effet, en cas d’indexation de plusieurs versions de ces pages, des problèmes de duplicate content peuvent alors survenir.

versions « printer-friendly »

 

Les identifiants de session sont souvent à l’origine de duplicate content. Cela arrive lorsqu’un identifiant de session enregistré dans l’URL est attribué à chaque utilisateur qui visite un site web.

identifiants de session

Afin de résoudre les problèmes liés au duplicate content, il est recommandé d’utiliser systématiquement des URL canoniques pour chaque contenu pouvant être retrouvé au niveau de plusieurs URL.  Pour ce faire, on peut utiliser une redirection 301 vers la bonne URL en utilisant la balise rel="canonical". Il est également possible, dans certains cas, d’utiliser l’outil Maintenance des Paramètres dans Google Webmaster Central.

L’une des solutions les plus efficaces pour combattre le duplicate content est de créer une redirection 301 de la page contenant le contenu dupliqué, vers la page contenant le contenu original. Cette méthode permet de profiter de l’impact positif créé par la mise en commun du potentiel des différentes pages. En effet, une fois combinées en une seul et même page, les anciennes versions ne se font plus de compétition, mais elles contribuent également à améliorer la pertinence et la popularité de la page originale. Résultat : cette dernière est mieux classée par les moteurs de recherche.

La redirection 301

 

Une autre méthode permettant de faire face efficacement au duplicate content est d’utiliser la balise rel=canonical. Cette balise transmet la même quantité de jus de lien (puissance de classement) qu’une redirection 301, mais son développement et sa mise en œuvre prennent généralement moins de temps.

La balise fait partie intégrante de la partie <Head> du code HTML d’une page. Cette méta-balise n’est pas nouvelle, mais comme c’est le cas pour un lien nofollow, elle utilise simplement un nouveau paramètre rel. Par exemple :

<link href="http://www.example.com/canonical-version-of-page/" rel="canonical" />

Cette balise indique à Google et à Bing que la page  concernée doit être traitée comme une copie de l’URL www.example.com/canonical-version-of-page/ et que tous les liens et les mesures de contenu mis en œuvre par les moteurs de recherche doivent être en réalité crédités vers l’URL fournie.

balise rel="canonical"

Les exemples suivants illustrent assez clairement des erreurs liées à l’usage de lettres capitales et qui occasionnent du contenu dupliqué.

  1. http://www.simplyhired.com/a/jobs/list/q-software+developer
  2. http://www.simplyhired.com/a/jobs/list/q-Software+developer
  3. http://www.simplyhired.com/a/jobs/list/q-software+Developer

Les seules différences entre ces trois URLs sont liées à l’utilisation de lettres capitales dans les mots « software » et « developer ». Ce qui fait que dans la pratique, un moteur de recherche considèrera ces trois URLs comme différentes pages et les traitera comme du contenu dupliqué. En mettant en place la balise rel="canonical" sur les deuxième et troisième occurrences avec une redirection vers la première URL, cela permettra aux moteurs de recherche de comprendre qu’il faut traiter toutes ces page comme si elles n’étaient qu’une et une seule URL : la première.

Pour les pages qui ne devraient pas être intégrées à l’index des moteurs de recherche, il est possible de mettre en place la balise Meta avec les valeurs "noindex, follow". Cela permet aux robots des moteurs de recherche de crawler les liens sur une page spécifique, tout en évitant qu’ils soient intégrés à leur index. Cette méthode est particulièrement efficace pour régler les problèmes de pagination.

Google Webmaster Tools offre la possibilité de définir le domaine favori pour son site et de gérer d’une autre façon, divers paramètres d'URL. Toutefois, ces différentes méthodes présentent un inconvénient majeur : elles ne fonctionnent que pour le moteur de recherche Google. Ainsi, les changements que vous effectuez à ce niveau n’affecteront aucunement les paramètres de Bing ou d’un quelconque autre moteur de recherche.

Ce petit paramétrage devrait être effectué pour tous les sites. Il s’agit en effet d’un moyen tout simple de dire à Google, si un site donné doit être affiché avec ou sans le "www" dans les pages de résultats des moteurs de recherche.

1-      Garder une certaine cohérence lors de l’organisation et de la configuration des liens internes d’un même site web. Par exemple, si un webmaster considère la version www.example.com/, comme la version canonique d’un domaine, alors tous les liens internes devraient prendre la forme http://www.example.com/example.html plutôt que http://example.com/page.html. Comme vous pourrez le constater, la seconde forme ne contient pas le "www".

2-      Au moment de la syndication du contenu, assurez-vous le site de syndication ajoute un lien qui ramène au contenu original.

3-      Evitez autant que possible le contenu similaire entre les pages de votre site. Par exemple, si votre site est consacré aux chaussures à LED, au lieu de créer une page qui traite des « chaussures à LED pour filles » reprenant à 95% le contenu de votre page traitant des « chaussures à LED pour garçons », l’idéal est de prendre le temps de créer du contenu totalement distinct pour chacune de ces pages. A défaut, vous pouvez envisager de combiner ces deux pages avec un contenu qui sera pertinent sur le sujet global des « chaussures LED pour enfants » et qui sera donc classé de façon optimale.

4-      Supprimer le Duplicate Content des index des moteurs de recherche en les non-indexant avec les méta robots ou via Webmaster Tools (Valable pour Google et Bing).

Modèle de code Rel=Canonical

<head> <link rel="canonical" href="https://www.seolius.com/dossiers" /> </head>

Modèle de code Meta Robots

<head> <meta name="robots" content="noindex, follow" /> </head>

Pour plus d’infos sur comment identifier et régler les problèmes liés au duplicate content, consultez également une autre de nos publications sur le sujet.

Livre blanc sur la légende SEO


Si vous ne trouvez pas la chronique correspondante à votre recherche, c'est peut-être l'occasion de la rédiger ;-)

Proposer ma chronique

Aimez-vous cet article ?

Nos réseaux préférés

Ajouter un commentaire