Le contenu dupliqué : un virus pour le référencement

Le content duplicate détruit le référencement naturel

Depuis que Google a procédé aux mises à jour des algorithmes Panda (qui sanctionne les sites qui publient des contenus de mauvaises qualités ou à faible valeur ajoutée) et Hummingbird (permettant de comprendre l’intention des utilisateurs derrière les requêtes), l’utilisation de contenu dupliqué, tout comme le bourrage de mots-clés, peuvent desservir votre référencement Google et votre SEO sur les autres moteurs de recherche. L’utilisation de contenu dupliqué sur votre site Web ne vaut plus la peine de courir un risque inutile. Cet article vous explique pourquoi le contenu dupliqué est un virus pour le référencement naturel et comment vous pouvez vous en prémunir.

Qu’est-ce que le contenu dupliqué ?

Le contenu dupliqué est un contenu exact ou quasi-identique accessible sur le web à plusieurs endroits. Le contenu dupliqué ou content duplicate peut malheureusement se produire sur un même domaine (site internet) ou sur des domaines distincts. En clair, le contenu dupliqué est un contenu (même contenu ou très similaire) consultable depuis différentes urls. En d’autres termes, si un même contenu apparaît à plus d’une adresse web, il s’agit d’un contenu dupliqué.

Comment survient le duplicate content ?

Quelles sont les causes courantes du contenu dupliqué ? Le contenu dupliqué trouve sa source dans les pratiques intentionnelles et non-intentionnelles. Le contenu dupliqué survient de deux manières :

  • Le content duplicate survient avec la publication (non intentionnelle) de doublons de contenus au sein d’un même site.
  • La duplication de contenu survient en copiant grossièrement le contenu d’un autre site. Cette pratique peut entraîner des conséquences importantes qui dégradent un site web en tant que source fiable de qualité dans le pire des cas.

Le contenu dupliqué est une source d’anxiété constante pour de nombreux propriétaires de sites. Mais Google affirme pourtant que la plupart des contenus dupliqués ne sont pas d’origine trompeuse. Est-ce pour autant que le contenu dupliqué ne sera pas pénalisé ? Google a déclaré qu’il n’y avait pas de pénalité pour le contenu dupliqué.

via GIPHY

Il vaut mieux parfois éviter de prendre pour argent comptant certaines déclarations du géant américain. Afin de savoir si vous être passible se sanctions pour le duplicate content, Google analyse deux situations :

  • Si votre contenu dupliqué est accidentel et ne résulte pas d’une manipulation intentionnelle des résultats de recherche ou de pratiques spammy du style Keyword Stuffing (répétition abusive du même mot clé sans honte et sans aucune gène) , vous ne serez pas pénalisé.
  • Si par contre vous revêtez la capuche noire avec des techniques de bourrin, la sanction tombera tôt ou tard. Vous risquez le déclassement de vos pages. Retenez ceci : qui sème du duplicate content à outrance, récolte du Panda.

Pourquoi les moteurs de recherche n’aiment pas les contenus dupliqués ?

Le but pur tout moteur de recherche ou pour Google qui se positionne comme un moteur de réponse est de fournir les meilleures sources d’informations répondant à une requête précise de l’internaute. La pertinence des réponses est un élément central à la fois pour le moteur de recherche que pour l’internaute. Lorsque des contenus similaires se retrouvent indexés, il peut être difficile pour les moteurs de recherche de déterminer la version la plus pertinente pour une requête de recherche donnée. De plus, le contenu dupliqué pose d’autres problèmes majeurs aux moteurs de recherche :

  • Une augmentation du budget crawl qui demande donc plus de ressources aux moteurs de recherche. De plus, la duplication de contenu en interne sur un site peut affecter la vitesse et la fréquence d’exploration de vos nouvelles pages ou vos pages que vous venez de mettre à jour.
  • Un réel problème sur l’autorité des sites qui peut tromper les moteurs de recherche via les backlinks. Dans les faits, un site d’autorité qui vous plagie peut vous surpasser dans les classements dans certaines situations. Aussi un backlink acquis par une url dupliquée ne vous apportera pas grand chose en terme de popularité. Dans ce dernier cas, le contenu dupliqué peut entraîner la dilution de vos liens retour ou backlinks.
  • La présence des liens ou d’urls pas très friendy dans les SERPs (résultats des moteurs de recherche).

Les cas de duplication de contenu les plus courants

Dans la grande majorité des cas, les éditeurs de sites internet ne créent pas intentionnellement de contenu dupliqué. Mais cela ne veut pas dire qu’il n’y en a pas. Il n’y a pas de cause unique de contenu dupliqué. Elles sont nombreuses. Connaître les différentes situations qui créent involontairement le contenu dupliqué peut vous permettre de corriger le tir ou d’éviter de mettre à mal votre référencement naturel.

Découvrez aussi notre superbe article sur la rédaction web. Vous y trouverez de très bons conseils pour écrire de très bons contenus.

Navigation à facettes, le système de filtre sur les sites e-commerce

Même si la navigation à facettes répond à un vrai besoin utilisateur qui est de filtrer et de trier les éléments de la page web, elle ajoute des paramètres à la fin de l’url. Pour chaque vue filtrée mal gérée, l’utilisateur aura autant de possibilités de générer des urls présentant des contenus similaires à la page catégorie. Comme il existe généralement de nombreuses combinaisons pour les filtres, la navigation à facettes donne souvent lieu à un grand nombre de contenus dupliqués ou presque.

Contenu mixte : http vs https / sans www vs avec www

Ce n’est plus un secret, les sites doivent être normalement accessibles uniquement via leur version sécurisée, c’est à dire en https via un certificat SSL valide. Sauf que dans les faits, ce n’est pas toujours aussi simple et beaucoup de site aujourd’hui se retrouve avec du contenu mixte, un cas typique du duplicate content. Si votre site est accessible pour chaque version d’url suivante, vous souffrez certainement du contenu mixte :

  • https://mon-joli-site.com (https, non-www)
  • https://www.mon-joli-site.com (https, www)
  • http://mon-joli-site.com (http, non-www)
  • http://www.mon-joli-site.com (http, www)

Si vous êtes dans ce cas, il est urgent d’agir car tout votre site est dupliqué sur chaque version d’url. Notre équipe spécialisée en référencement naturel peut vous aider à résoudre le problème de contenu mixte en SEO. Si vous n’arrivez pas à détecter ce problème tout seul, demandez-nous un pré-audit SEO, c’est toujours GRATUIT.

La gestion des urls destinées aux mobiles

La mauvaise gestion des urls adaptées aux mobiles peut également être une mauvaise opportunité pour créer des doublons de vos sites ou pages :

  • mon-super-site.com/article
  • m.mon-super-site.com/article

La meilleure façon de gérer ce cas de contenu dupliqué est d’envoyer des informations aux moteurs de recherche sur la version du site à indexer. Utilisez rel= »alternate » pour indiquer à Google que l’url adaptée aux mobiles est une version alternative de la version ordinateur.

La gestion des sites multi-langues

Si vous proposez un contenu similaire à des cibles situées dans des endroits différents mais parlant la même langue, le risque de créer du contenu dupliqué peut être grand.

Par exemple, vous pouvez avoir des versions différentes de votre site pour les personnes vivant aux États-Unis, au Royaume-Uni et au Ghana. Étant donné qu’il n’y a probablement que des différences mineures entre le contenu servi à chaque endroit (par exemple, les prix en dollars par rapport aux livres sterling et aux cedis ghanéens), les versions de pages géolocalisées seront presque des doublons. Ce cas de figure s’appelle near duplicate qu’il faut gérer correctement.

La génération de contenus dupliqués par le moteur de recherche interne du site

De nombreux sites internet disposent de champs de recherche ou moteur de recherche interne. Leur utilisation vous conduit généralement à une url de recherche paramétrée.

Exemple : https://maxelik.com/?s=seo

La bonne gestion du moteur de recherche interne vous évitera de multiplier inconsciemment des urls inutiles pour le bien-être de votre site. Cela se passe dans le robots.txt

La version preprod ou de développement ou de test du site peut créer du contenu dupliqué

Une version de test est une version dupliquée ou quasi dupliquée de votre site utilisée à des fins de test (donc non indexable). Ces versions du site sont très utilises pour faire des ajustements avant déploiement en production. Les environnements de test peuvent poser un sérieux problème de référencement lorsque Google ou autre moteur de recherche les indexe, car ils génèrent du contenu dupliqué.

Au moment de la rédaction de ce contenu, le site https://www.lepilote.com/ est actuellement dupliqué avec sa version preprod https://preprod.tsi.pilote4.cityway.fr/fr/

site dupliqué et indexé
Site preprod indexé et dupliqué avec sa version originale

Les urls sensibles à la casse créent des cas de duplication de contenu

Google considère que les urls sont sensibles à la casse. Cela signifie que ces trois urls ci-dessus sont toutes différentes, mais elles affiches les mêmes contenus :

  • mon-money-site.com/contenu
  • mon-money-site.com/CONTENU
  • mon-money-site.com/CoNtenU

Vous devez régler ce genre de problème avec les règles de réécriture d’urls.

Le duplicate content causé par les tags et les catégories dans l’url

La plupart des CMS créent des pages de tags dédiées lorsque vous les utilisez. Par exemple, si vous avez un article sur le référencement naturel à Paris, et que vous utilisez à la fois « SEO Paris » et « SEO IDF » comme tags, vous vous retrouverez avec deux pages de tags comme celles-ci :

  • https://www.mon-super-seo.com/tag/seo-paris/
  • https://www.mon-super-seo.com/tag/seo-idf/

Cela n’entraîne pas toujours un contenu dupliqué en soi, mais c’est possible. C’est le cas ici, car il n’y a qu’une seule page sur le site avec ces deux balises, donc chaque page de balises est identique.

Barre oblique ou non à la fin des urls, une source potentielle de contenu dupliqué

Pour Google, les urls avec et sans barre oblique (à la fin de l’url) sont considérées comme uniques. En conséquence, ces urls sont uniques pour les robots des moteurs de recherche.

  • monsite-referencement-naturel.com/seo-sormandie/
  • monsite-referencement-naturel/seo-sormandie

Si votre contenu est accessible aux deux urls, cela peut poser des problèmes de contenus dupliqués. Faites l’essai avec cet article que vous lisez : https://maxelik.com/le-contenu-duplique-un-virus-pour-le-referencement/ et https://maxelik.com/le-contenu-duplique-un-virus-pour-le-referencement pointent à la même adresse (celle avec la barre oblique à la fin).

via GIPHY

Les urls des images jointes peuvent produire des contenus dupliqués

De nombreux CMS créent des pages dédiées aux images jointes. Ces pages n’affichent généralement que l’image et un texte générique. Comme ce contenu est le même sur toutes les pages générées automatiquement, cela conduit à un contenu dupliqué.

La pagination a des risque de créer des contenus dupliqués

La mauvaise gestion de la pagination sur les sites internet provoque du contenu dupliqué car cela crée effectivement plusieurs versions des mêmes urls avec des contenus quasiment identiques.

Devez-vous vous alarmer dès les premiers contenus dupliqués ?

Si vous n’avez qu’une poignée de pages en double ou presque, il est peu probable qu’il y ait un problème. Il en va de même lorsque vous citez le contenu d’un autre site Web ou d’autres pages de votre site. De petites quantités de contenus dupliqués ne devraient pas poser de problème. Les moteurs de recherche ont mis en place des systèmes efficaces qui traitent avec bienveillance ces cas.

Ce qu’il faut surveiller, ce sont les erreurs techniques de référencement qui conduisent à la génération de centaines voir de milliers de pages de contenu dupliqué.

Comment protéger mon contenu de la duplication par le vol de contenu ?

Pour éviter que les pirates de contenu ne volent le crédit SEO de votre contenu, il existe plusieurs moyens. L’un des moyens de se prémunir est d’ajouter un lien rel = canonical autoréférentiel à vos pages existantes.

url canonique
L’ajour de l’url canonique à notre propre article

Il s’agit d’un attribut canonique qui pointe vers l’url sur laquelle il se trouve déjà.

Nous venons de voir les cas les plus habituels d’avoir du contenu dupliqué sur un site internet. Si vous pensez qu’il y a un cas de duplication de contenu important qui ne fait pas parti de cet article, veillez nous le faire savoir dans les commentaires et on l’ajoutera. Il ne faut pas traiter les problèmes de contenus dupliqués avec légèreté car votre trafic organique peut en souffrir dans les cas les plus graves.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *