| |

Le plagiat, un aveu d’impuissance qui se paie cash

En conclusion de notre dernier article sur le maillage interne, nous avons esquissé le sujet du thème que nous abordons aujourd’hui : le plagiat. On ne le présente plus puisqu’il fait florès sur le net, tant il est aisé de faire siennes toutes les productions possibles et imaginables. Il suffit de quelques clics, d’agencer savamment un contenu déniché ça et là ou de prononcer une formule magique et voilà tour est joué : un contenu textuel est déversé à l’attention du monde, souvent sans la moindre compétence ni expertise sur un sujet, l’ultracrépidarianisme dans toute sa splendeur. Avouons qu’il est tentant de faire du remplissage express (on parle aussi fermes de contenu, donc à vil contenu) à l’attention des moteurs de recherche, afin d’obtenir leurs faveurs et ainsi se positionner, à moindre prix, sur la SERP. En effet, comme nous l’avons déjà vu dans ce blog, il y a une corrélation entre la longueur d’un texte et son positionnement. D’où la tentation de faire appel à ce genre de pratiques.

L’arrivée en 2011 de l’algorithme Google Panda a rebattu les cartes. Alors qu’au début, les fameux mots-clés avaient la cote, Panda va dorénavant promouvoir l’originalité et pénaliser les sites avec du contenu plagié ou dupliqué. Les sites à faible contenu ont très vite dégringolé alors que ceux à contenu original et pertinent ont vu leur classement amélioré. Les moteurs de recherche ont très bien intégré que le psittacisme, ou le fait de répéter comme un perroquet l’ antienne, risquait de compromettre une bonne expérience utilisateur. Ce n’est que rendre justice au contenu qualitatif !

Nous allons répondre à pas mal de questions sur ce sujet. C’est quoi la différence entre le plagiat et le copy content ? Pourquoi plagier est-il un aveu de faiblesse ? Quels sont les risques encourus quand on plagie du contenu ? Quels outils pour repérer du contenu plagié, même traduit ? Peut-on parler de plagiat pour du contenu généré par l’IA ?

Plagiat vs Copie de contenu

Le plagiat, grosso modo, consiste à faire sien un contenu tiers et s’en prévaloir de la paternité. Donc, à s’attribuer des idées ou des productions (images, textes, etc.) qui viennent de sources diverses et cela sans citer l’auteur réel. En dehors des considérations morales, cela peut déboucher sur des procédures légales avec des sanctions à la clé. En matière académique, ne pas citer ses sources peut aboutir au rejet d’un travail ou même à l’exclusion de l’auteur de l’infraction. Les bibliographies doivent d’ailleurs respecter les normes APA (American Psychological Association).

La copie de contenu qui reproduit in extenso ou partiellement un contenu va, elle, citer l’auteur. Cependant, la copie de contenu n’affranchit aucunement de toute obligation légale en cette matière. En effet, la copie de contenu doit respecter les règles générales sur les droits d’auteur Si la copie est interdite ou si l’on viole les droits d’auteur, les sanctions encourues seront identiques au plagiat. La seule différence est d’ordre éthique.

Google est très vigilant sur ces sujets et n’hésitera pas à pénaliser le contenu dupliqué ou plagié. L’originalité et le contenu de qualité constituent le fond de commerce des moteurs de recherche via l’expérience utilisateur (l’UX) qui aura toujours tendance à s’attarder sur du contenu à valeur ajoutée.

Plagiez et vous serez sanctionné…

Bien entendu toute production a une origine, rien ne surgit ex nihilo. Ne serait-ce que l’usage des mots ; après tout, ne viennent-ils pas de quelque part ? Il est clair qu’une idée, qu’une production s’inscrivent dans un enchaînement et une transmission. Google ne va jamais reprocher le fait qu’un auteur synthétise dans un travail original des idées ou résume dans un article une information relative à un sujet particulier. Tout au contraire, les moteurs de recherche apprécient particulièrement l’expertise et quoi de mieux qu’un contenu qui rassemble ou synthétise tout ce qui touche à un sujet spécifique. Reformuler ou fondre des informations éparses ne signifie pas spolier littéralement ce qui a été produit par un tiers. Pour repérer les tricheurs, il existe différents sites qui aideront à les identifier. Pour les textes traduits, Copyscape.com fera l’affaire. Il suffira d’introduire l’url de la page à inspecter et vous verrez si votre rédacteur, qui vous facture de l’original, n’a tout simplement pas traduit un contenu made in à l’étranger, avec un repassage ou une reformulation maison, question de noyer le poisson… Citons aussi Unicheck qui peut comparer du contenu dans différentes langues. Combiner DeepL avec Google peut s’avérer une solution intéressante. On traduit d’abord et puis on mouline avec Google. Nous avons conseillé un de nos clients qui a ainsi découvert le pot aux roses : son rédacteur était vraiment prolifique, trop prolifique. Bien entendu, il existe des outils Premium, donc payants et souvent à des fins académiques : https://www.grammarly.com

Illustration avec un cas maison : notre contenu plagié, repéré illico presto !

Le contenu original indexé il y a dix jours, ne l’est plus aujourd’hui…

Dans l’article sur le maillage interne, à l’aide de la version free de plagiarismedetector.net (limitée à 1000 mots), nous avons passé à la moulinette son contenu rédactionnel. Sans surprise, la sanction est tombée : 100 % original. Nous n’en attendions pas moins… Ce même contenu, après indexation sur les moteurs, a non seulement été identifié comme plagié mais a aussi été sourcé, en citant Calame.art… Preuve, s’il en est, que l’antériorité l’emporte toujours. Si les petits plagiaires pensent s’en sortir à leur avantage, sans passer sous les fourches caudines de Google, ils en seront pour leurs frais. Et c’est très bien ainsi. Il en sera de même, comme nous l’avons vu, pour des productions étrangères qui, bien que traduites, ne passeront pas sous le radar des puissants algorithmes.

Du contenu généré par l’A, est-ce du plagiat ? Qu’en pense Google ?

Nous avons passé notre article au détecteur d’IA (en l’occurence deepL), le résultat fut sans appel : 0 % d’IA détecté ! Sans rentrer dans trop de détails, c’est à l’aide d’un indicateur de perplexité qu’on peut repérer le mot qui suivra logiquement un autre et donc déduire de l’origine humaine ou non d’un contenu. Au plus l’indicateur de perplexité est faible, au plus le modèle est confiant quant à la prédictibilité du mot qui suit. La perplexité, dans le cas de l’IA, est plus faible que dans les productions humaines où la prédictibilité est moindre, donc une perplexité plus forte. Ces règles sont valables à l’heure actuelle, bien entendu. Nous retiendrons donc que l’IA est plus prédictible, donc par déduction une créativité moindre…

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *