En conclusion de notre dernier article sur le maillage interne, nous avons esquissé le sujet du thème que nous abordons aujourd’hui : le plagiat. On ne le présente plus puisqu’il fait florès sur le net, tant il est aisé de faire siennes toutes les productions possibles et imaginables. Il suffit de quelques clics, d’agencer savamment un contenu déniché ça et là ou de prononcer une formule magique et voilà tour est joué : un contenu textuel est déversé à l’attention du monde, souvent sans la moindre compétence ni expertise sur un sujet, l’ultracrépidarianisme dans toute sa splendeur. Avouons qu’il est tentant de faire du remplissage express (on parle aussi fermes de contenu, donc à vil contenu) à l’attention des moteurs de recherche, afin d’obtenir leurs faveurs et ainsi se positionner, à moindre prix, sur la SERP. En effet, comme nous l’avons déjà vu dans ce blog, il y a une corrélation entre la longueur d’un texte et son positionnement. D’où la tentation de faire appel à ce genre de pratiques.
L’arrivée en 2011 de l’algorithme Google Panda a rebattu les cartes. Alors qu’au début, les fameux mots-clés avaient la cote, Panda va dorénavant promouvoir l’originalité et pénaliser les sites avec du contenu plagié ou dupliqué. Les sites à faible contenu ont très vite dégringolé alors que ceux à contenu original et pertinent ont vu leur classement amélioré. Les moteurs de recherche ont très bien intégré que le psittacisme, ou le fait de répéter comme un perroquet l’ antienne, risquait de compromettre une bonne expérience utilisateur. Ce n’est que rendre justice au contenu qualitatif !
Nous allons répondre à pas mal de questions sur ce sujet. C’est quoi la différence entre le plagiat et le copy content ? Pourquoi plagier est-il un aveu de faiblesse ? Quels sont les risques encourus quand on plagie du contenu ? Quels outils pour repérer du contenu plagié, même traduit ? Peut-on parler de plagiat pour du contenu généré par l’IA ?
Plagiat vs Copie de contenu
Le plagiat, grosso modo, consiste à faire sien un contenu tiers et s’en prévaloir de la paternité. Donc, à s’attribuer des idées ou des productions (images, textes, etc.) qui viennent de sources diverses et cela sans citer l’auteur réel. En dehors des considérations morales, cela peut déboucher sur des procédures légales avec des sanctions à la clé. En matière académique, ne pas citer ses sources peut aboutir au rejet d’un travail ou même à l’exclusion de l’auteur de l’infraction. Les bibliographies doivent d’ailleurs respecter les normes APA (American Psychological Association).
La copie de contenu qui reproduit in extenso ou partiellement un contenu va, elle, citer l’auteur. Cependant, la copie de contenu n’affranchit aucunement de toute obligation légale en cette matière. En effet, la copie de contenu doit respecter les règles générales sur les droits d’auteur Si la copie est interdite ou si l’on viole les droits d’auteur, les sanctions encourues seront identiques au plagiat. La seule différence est d’ordre éthique.
Google est très vigilant sur ces sujets et n’hésitera pas à pénaliser le contenu dupliqué ou plagié. L’originalité et le contenu de qualité constituent le fond de commerce des moteurs de recherche via l’expérience utilisateur (l’UX) qui aura toujours tendance à s’attarder sur du contenu à valeur ajoutée.
Plagiez et vous serez sanctionné…
Bien entendu toute production a une origine, rien ne surgit ex nihilo. Ne serait-ce que l’usage des mots ; après tout, ne viennent-ils pas de quelque part ? Il est clair qu’une idée, qu’une production s’inscrivent dans un enchaînement et une transmission. Google ne va jamais reprocher le fait qu’un auteur synthétise dans un travail original des idées ou résume dans un article une information relative à un sujet particulier. Tout au contraire, les moteurs de recherche apprécient particulièrement l’expertise et quoi de mieux qu’un contenu qui rassemble ou synthétise tout ce qui touche à un sujet spécifique. Reformuler ou fondre des informations éparses ne signifie pas spolier littéralement ce qui a été produit par un tiers. Pour repérer les tricheurs, il existe différents sites qui aideront à les identifier. Pour les textes traduits, Copyscape.com fera l’affaire. Il suffira d’introduire l’url de la page à inspecter et vous verrez si votre rédacteur, qui vous facture de l’original, n’a tout simplement pas traduit un contenu made in à l’étranger, avec un repassage ou une reformulation maison, question de noyer le poisson… Citons aussi Unicheck qui peut comparer du contenu dans différentes langues. Combiner DeepL avec Google peut s’avérer une solution intéressante. On traduit d’abord et puis on mouline avec Google. Nous avons conseillé un de nos clients qui a ainsi découvert le pot aux roses : son rédacteur était vraiment prolifique, trop prolifique. Bien entendu, il existe des outils Premium, donc payants et souvent à des fins académiques : grammarlyhttp://www.grammarly.com
Illustration avec un cas maison : notre contenu plagié, repéré illico presto !
Dans l’article sur le maillage interne, à l’aide de la version free de plagiarismedetector.net (limitée à 1000 mots), nous avons passé à la moulinette son contenu rédactionnel. Sans surprise, la sanction est tombée : 100 % original. Nous n’en attendions pas moins… Ce même contenu, après indexation sur les moteurs, a non seulement été identifié comme plagié mais a aussi été sourcé, en citant Calame.art… Preuve, s’il en est, que l’antériorité l’emporte toujours. Si les petits plagiaires pensent s’en sortir à leur avantage, sans passer sous les fourches caudines de Google, ils en seront pour leurs frais. Et c’est très bien ainsi. Il en sera de même, comme nous l’avons vu, pour des productions étrangères qui, bien que traduites, ne passeront pas sous le radar des puissants algorithmes.
Du contenu généré par l’A, est-ce du plagiat ? Qu’en pense Google ?
Nous avons passé notre article au détecteur d’IA (en l’occurence deepL), le résultat fut sans appel : 0 % d’IA détecté ! Sans rentrer dans trop de détails, c’est à l’aide d’un indicateur de perplexité qu’on peut repérer le mot qui suivra logiquement un autre et donc déduire de l’origine humaine ou non d’un contenu. Au plus l’indicateur de perplexité est faible, au plus le modèle est confiant quant à la prédictibilité du mot qui suit. La perplexité, dans le cas de l’IA, est plus faible que dans les productions humaines où la prédictibilité est moindre, donc une perplexité plus forte. Ces règles sont valables à l’heure actuelle, bien entendu. Nous retiendrons donc que l’IA est plus prédictible, donc par déduction une créativité moindre…
La question légitime à se poser : quelle est la position de Google à l’endroit d’une pratique de contenu généré l’IA ? Eh bien, Google ne va pas discriminer ni pénaliser un contenu produit par l’IA, pour autant que ce contenu respecte les standards de qualité prônés par le leader des moteurs de recherche :
- l’autorité : quelle est l’autorité de l’auteur, de la source, du site en question ?
- la fiabilité du contenu : peut-on se fier au contenu émanant de cette source ?
- l’expertise : s’agit-il d’une source dont l’expertise est reconnue dans ce domaine ?
En résumé, un contenu généré par l’IA ne sera pas condamné automatiquement pour autant que le contenu soit rédigé correctement, donne de bonnes informations et réponde aux attentes des utilisateurs, donc à la fameuse UX. En 2022, est lancé le “Helpful Content Update”, une mise à jour de Google qui va privilégier le contenu pour les utilisateurs et non à l’attention des moteurs de recherche. La production humaine sera donc favorisée par rapport au contenu IA. Le keyword stuffing, un contenu répétitif, mal rédigé, sont des signes d’un contenu artificiel et peuvent indiquer une origine non humaine. Cependant, sans aucune certitude. Et qu’il soit humain ou non le contenu de mauvaise qualité sera sanctionné. Qu’on se le tienne pour dit !
Fuyez le banal, soyez original
On ne le dira jamais assez : sortez des sentiers battus ! Si vous faites du copier-coller, si vous ne remettez pas en question vos productions, si vous pensez que tout est acquis et que l’excellence ne veut rien dire, vous êtes sur la mauvaise pente. A l’échelle industrielle, des histoires de chutes vertigineuses sont légion. Rien n’est définitivement acquis ! Sans entrer dans l’aspect éthique du plagiat, il faut surtout pointer du doigt l’impuissance des plagiaires ; c’est là un aveu d’une terrible incapacité à faire autre chose que ce qui a été déjà fait, donc à n’apporter aucune valeur ajoutée à ses clients, aux utilisateurs et à tous ceux qui en veulent pour leur argent ou leur temps. Et de nouveau, la médiocrité sera sanctionnée et la qualité avantagée.