Vous cherchez quelque chose ?

Hypothèse sur le remplacement du PageRank


Présent depuis longtemps dans l'algorithme de Google, PageRank ne devrait plus faire l’objet de mises à jour, selon certains représentants de Google.


 Algorithme Google


Pagerank, fin de vie

Des représentants de Google ont annoncé récemment que la firme de MountainView ne souhaite pas publier de nouvelles mises à jour pour la barre d'outils d'annotations de PageRank. Cette nouvelle surprend, sachant que Google a toujours mis un point d'honneur à réactualiser ces outils entre 3 et 4 fois par an pendant plus d'une décennie.

Cette annonce indique-t-elle une volonté de Google de se séparer de PageRank ? Ou cela signifie-t-il que PageRank est appelé à changer d'une façon ou d'une autre ? (Le PageRank de la barre d'outils ne correspond pas en réalité au PageRank d'un site, cet affichage étant trop rarement actualisé par Google)

La vraie question est : Google a-t-il trouvé autre chose en remplacement ou en soutien du PageRank ?

Cette thèse paraît assez plausible avec l'obtention en septembre dernier d'un brevet, portant sur un dispositif octroyant un score global pour les pages web, un principe qui semble au final similaire à celui de Google PageRank.

Ce brevet inclut également un mode de classement individuel des pages, indépendamment des sites, mais qui impacte leur score global, si les pages répondant à une requête similaire ne sont pas importantes pour le site.

score global Google

A noter qu'il existe certains critères qui entrent en compte dans le classement des pages et qui ne dépendent pas du thème ou de la nature d'une requête. Ces paramètres incluent notamment le nombre de liens pointés vers les pages ou encore le nombre de liens sortant depuis les pages d'un site web.

Les faits actuels rappellent un peu la période où Jon KleinBerg's a développé l'algorithme HITS basé sur les scores d'autorité et d'importance. Cet algorithme a été perfectionné presque au même moment que PageRank. Seule différence, il réalise ses évaluations à partir de critères différents de ceux de PageRank, afin de déterminer à quel point les pages web font figure d'autorité dans leur domaine.

A l'instar du Topic Sensitive PageRank, le brevet obtenu en septembre mentionne également une technologie qui analyse les thèmes des pages et des sites, ainsi que les liens du site pointant vers d'autres pages et sur d'autres sites et évalue le niveau de correspondance du thème des deux sites.

Le brevet commence simplement sa description, en indiquant que les moteurs de recherches classent les pages web et les autres données – comme les images, les vidéos, les e-livres et autres – par ordre d'importance, leur but étant de fournir des résultats de recherche répondant au mieux à une requête précise. L'ordre de ces résultats dépend de plusieurs facteurs. Certaines informations utilisées dans le classement des pages web proviennent de sources externes, qui reflètent à la fois la qualité de ces pages et la pertinence de leur contenu par rapport à une requête donnée.

Lorsqu'un moteur de recherche reçoit une requête précise, il effectue un classement des pages, images, fichiers médias et autres objets en ligne pour générer une indexation globale. Ce classement comprend une étape lors de laquelle le moteur détermine la pertinence des objets par rapport à la requête et une autre, où le navigateur mesure l’objet qui répond le mieux à la demande par rapport aux autres données présentes sur le site et sur les pages externes au site.

Plusieurs pages web peuvent être classées selon une liste de critères concernant uniquement un site. Cette indexation donne lieu à un classement en interne des pages d'un même site web dans les résultats de recherche.

En combinant ce processus de classement à l'indexation globale, on obtient un classement mixte des pages, basées sur leur position au sein d'un même site et leur position par rapport aux autres pages d'autres sites répondant à une même requête.

Le classement global des pages actuelles dépend donc en partie de la structure interne d'un site web, mais aussi de l'autorité et de la fiabilité relative d'une page comparée à d'autres pages du site, laquelle peut être mesurée en analysant le positionnement d'une page dans la structure interne du site. Cette évaluation prend en compte les liens entrants vers la page depuis d'autres pages du même site. Vu de cet angle, le processus ressemble un peu à une analyse PageRank, mais limitée à un seul site.

Ce classement implique l'étude entre autres :

  • de la nature de la demande de recherche
  • du type de sites correspondant à la requête
  • de l'ancienneté d'une ressource particulière comparée aux autres pages du même site
  • d'un type de contenu pouvant être associé à la ressource particulière

Les paramètres qui entrent en jeu dans le classement en interne des pages d'un site web sont de fait différents de ceux utilisés pour établir un classement global de ces mêmes pages.

Le classement interne des pages d'un site s'obtient en comparant les scores obtenus par toutes les pages du site. Sur la base de cette indexation, une page représentative ou une page de référence peut être identifiée, sur la base des scores obtenus par chaque page respective. Les moteurs de recherches utilisent parfois cette page de référence ou page représentative pour ajuster le classement global du site dans les résultats de recherche.

Le classement des sites dépend d'autres facteurs supplémentaires :

  • Le score de classement global d'un site peut être calculé sur la base des données identifiables sur l'adresse, sans avoir à analyser de près l'information fournie par le site en question. De fait, ce score ne dépend pas d'une requête particulière, ni même du thème de la recherche.
  • Le score de classement général d'un site dépend également, du moins en partie, du degré de fiabilité du site en question dans son domaine.

La technologie appelée peut-être à remplacer offre les avantages suivants, selon les propres descriptions du brevet :

  1. La pertinence des résultats de recherche pourrait être améliorée en incorporant les critères de sélection et les signaux locaux dans leur classement.
  2. Ces mêmes paramètres locaux fournissent des informations très précises sur un site particulier et permettent d'affiner le classement du site par rapport aux autres sites qui lui sont liés dans les résultats de recherche.
  3. Si les signaux locaux procurent des données inexactes ou peu fiables, un réajustement des résultats de recherche est possible grâce à l'analyse de la structure du site ou de son autorité relative dans son domaine d'activité.


Classement des résultats de recherche selon la structure interne et l'environnement externe d'un site web

Inventé par Sundeep Tirumalareddy et Trystan G. Upstill

Assigné à Google

Brevet US 8 843 477

Accordé le 23 septembre 2014

Déposé le 31 octobre 2011

Le brevet porte sur des procédés, systèmes et appareils, incluant les programmes informatiques codés sur un terminal de stockage, en vue d'un classement de résultats de recherches.

Le dispositif décrit dans le brevet cherche avant tout à évaluer les objets susceptibles de correspondre à une requête, afin de :

  • générer un classement global basé sur la pertinence de chacun des objets web concernés par rapport à la demande de recherche et mesurer l'autorité relative de chaque objet web – page, image, fichier multimédia, etc. — par rapport à la multitude d'autres objets web comparables qui existent sur le web. Ces opérations sont réalisées en partant du fait que chaque objet web est présent sur une page correspondant à un site particulier, lequel contient également plusieurs autres pages.
  • classer l'ensemble des pages web composant chaque site web sur la base de critères de classement interne et obtenir ainsi une indexation en interne de chaque page d'un site.
  • générer un classement mixte de chacune des pages web, à partir d'un classement global des objets composant la page web et du classement en interne – dans la structure du site – de la page web
  • présenter des pages web répondant à une requête précise en utilisant le classement mixte.

Le classement des pages web avec cette technologie fait appel à une évaluation détaillée des données internes du site, autrement dit celles qui sont liées à son contenu et les informations qui s'y trouvent, et des données externes, incluant la thématique globale et la pertinence du site compare à d'autres adresses.

Les informations contenues dans un site, associées aux données externes, sont également prises en compte dans le calcul du score global d'un site pour son classement dans les résultats de recherche.

Ces données internes incluent entre autres les informations fournies par les pages ou le site lui-même, comme :

  • le nombre de mots-clés sur une page ou sur le site répondant à une requête
  • la position de ces mots-clés sur le site ou sur la page
  • Le nombre de liens entrants d'une page, issus d'autres pages de sites du même domaine
  • La localisation de la page dans la structure interne du site. Une page d'accueil pourrait être ainsi considérée comme plus importante par rapport à d'autres pages accessibles seulement en navigant à travers plusieurs hyperliens. 

Le classement global d'un site implique souvent les données externes au site, dont les signaux identifiables grâce à certaines informations fournies par les objets web. Parmi ces informations figurent notamment :

  • le nombre de liens vers une page ou vers le site depuis d'autres sites non liés
  • la fréquence d'affichage de la page ou du site dans les résultats de recherche pour une requête particulière.
  • les autres données statistiques mesurant la fiabilité ou l'autorité du site associé à la page.

Ces paramètres, considéré à raison comme sortant du domaine de responsabilité du webmaster, peuvent servir d'excellent indicateur pour mesurer la pertinence, la popularité, l'autorité et l'importance d'une page vis-à-vis d'un problème spécifique ou d'une requête précise.


De la pertinence du thème par rapport à d'autres sites

Cette information externe au site peut indiquer l'importance ou l'autorité du site dans son sujet, par rapport à d'autres sites ou par rapport à d'autres pages parlant du même sujet sur d'autres sites. Ainsi, dans l'exemple précédent, les pages corrélées à des adresses réputées — dont les informations sur les ordinateurs portables sont jugées pertinentes – confirment l'importance et la fiabilité du site auquel elles sont liées.

De l'autorité relative d'un site

Un site, qui accueille sur ses pages plusieurs liens entrant depuis d'autres sites dispose logiquement de plus d'autorité dans son domaine et fait ainsi figure de référence. Ces données externes reliées au site constituent à juste titre un excellent indicateur de l'autorité d'une adresse.

Les signes attestant de la fiabilité d'un site et qui entrent en compte dans leur classement sont nombreux et diversifiés. Ces signaux se résument comme suit :

  • le nombre de liens externes de pages renvoyant vers la page d'un site, tout comme l'autorité des sites hébergeant ces mêmes pages. Les sites reliés à d'autres adresses par un important nombre de liens externes seront mieux valorisés que les sites ne disposant que d'un faible réseau de liens. Ce principe ressemble beaucoup à l'algorithme HITS de Jon Kleinberg's, qui accorde plus de confiance aux pages liées à d'autres pages aussi importantes qu'elles.
  • le nombre de liens ne suffit pas pour autant pour construire l'autorité du site. La qualité compte également. Ainsi, la technologie annoncée dans le brevet accorde plus de confiance à un site qui possède des backlinks sur des pages de sites réputés, par rapport à un site possédant le même nombre de liens entrants, mais issus d'adresses moins fiables.
  • le brevet précise qu'en règle générale, plus une page web dispose de liens externes, plus grandes  seront la réputation et l'autorité du site qui l'héberge.
  • la fiabilité et la pertinence d'un site sur une requête particulière se mesurent enfin à la fréquence à laquelle le moteur de recherche le choisit pour répondre à une recherche précise.

Plus d'une page web d'un site peut répondre pertinemment à une requête. Ces pages connexes sont alors comparées en analysant les données internes du site.

Par exemple, le score d'un classement global est peut-être basé à la fois sur les données internes et les données externes au site, mais une importance particulière est accordée aux données externes lorsqu'il s'agit de calculer le score de classement global d'un site. De la même manière, le classement interne des pages d'un site considère à la fois les données externes et externes. Les données internes du site sont toutefois plus influentes dans ce mode de classement.

D'autres signaux entrent en compte dans l'indexage, notamment :

  • la répétition de mots dans une page. L'outil d'indexation considère, par exemple, qu'un mot « portable » qui revient souvent dans une page sous-entend que la page pourrait constituer une réponse pertinente à des requêtes sur les « ordinateurs portables ».
  • la mise en évidence d'un mot sur une page : dans l'exemple ci-dessus, le placement du mot « portable » dans le titre ou l'introduction de la page confirme l'importance de cette expression pour la page.
  • l'importance d'un mot sur une page comparée d'autres pages du même site. L'influence relative du mot se mesure en comparant le nombre de pages du même site qui renvoient des liens vers la page le contenant et le nombre de pages qui renvoient vers d'autres pages qui ne le mentionne pas ou peu.

Les critères de classement en interne peuvent être aussi utilisés pour déterminer l'importance d'une ressource particulière d'un site web, selon le type du site et le type de recherche.

Une page contenant des informations relatives au produit d'une marque, également vendu sur d'autres sites, mais à des prix plus élevés, sera par exemple mieux classée dans les résultats de recherche.

De même, les sites de forum contenant le plus grand nombre de posts récents bénéficieront d'un meilleur classement qu'un autre forum, moins dynamique.

En savoir plus sur les autres algorithmes de Google


Si vous ne trouvez pas la chronique correspondante à votre recherche, c'est peut-être l'occasion de la rédiger ;-)

Proposer ma chronique

Aimez-vous cet article ?

Nos réseaux préférés

Ajouter un commentaire