Comment détecter la fraude ChatGPT dans les dissertations, rapports, thèse et devoirs

: Raphaël Richard, 24pm Academy; 20 janvier 2023, 10:28

Vous êtes enseignant et souhaitez savoir si un devoir été rédigé par GPT ou par l'étudiant lui-même.

La dissertation, le rapport, la thèse ou le rapport de stage que vous a rendu un élève ont-ils été rédigés par GPT ou par l'étudiant ou l'élève, lui-même ?

Moins d'un mois après le lancement commercial de ChatGPT, des centaines d'élèves l'utilisaient déjà pour rédiger leurs devoirs à leur place. TikTok et Youtube sont remplis de tutoriels en français qui expliquent comment faire rédiger ses devoirs par ChatGPT

Comment détecter la fraude ChatGPT ?

Il y a trois choses à faire pour détecter la fraude à ChatGPT ?

1. Comprendre le fonctionnement de la technologie GPT qui se cache derrière ChatGPT

2. Utiliser vous-même ChatGPT pour reconnaître le style de ChatGPT qui est assez caractéristique

3. Utiliser des logiciels qui détectent les textes écrits par ChatGPT

Comprendre le fonctionnement de ChatGPT pour détecter la fraude

ChatGPT est la version grand public de GPT, une technologie développée par une entreprise américaine nommé OpenAI, créé en 2015 et qui a le potentiel pour devenir un nouveau Gafam.

GPT est un logiciel d'intelligence artificielle de NLP (Naturel Language Processing) ou Traitement du Langage Naturel, une famille de technique d'intelligence artificielle qui vise à traiter des textes pour en faire des résumés, isoler les concepts qui y sont développés, les résumer, les traduire ou encore les développer. Le logiciel créé par Open AI, GPT est utilisé depuis 2018 par les entreprises qui l'utilisent d'abord pour écrire des milliers de textes afin d'alimenter le contenu de leurs sites web ou de leurs comptes sur leurs réseaux sociaux afin de diminuer leurs coûts. Plusieurs versions de GTP sont sorties: GTP, GPT2, GPT3 en 2020. GPT3 marque une véritable rupture technologique et commerciale. Rupture technologique car ce logiciel de "deep learning" (une technologie d'intelligence artificielle qui repose sur les réseaux de neurones profonds) est de loin le plus puissant ayant été créé dans le domaine du traitement du langage, plus puissant même que ses équivalents chez Google.

GPT3 a parcouru, un peu à la façon de Google, le web, récupéré des centaines de millions de documents (et non des centaines de milliards contrairement à ce que l'on entend ci et là). Wikipedia représente par exemple un peu moins de 1% des documents qu'il a récupéré, mais Amazon, Lemonde, le Wall Street journal et les blogs les plus actifs font également partie des sources de GPT3. Grâce de puissants algorithmes, GPT3 a ensuite décortiqué des contenues pour tenter de comprendre le détail du contenu de ces documents, comme un algorithme de Deep Learning peut le faire et créé un réseau de neurones artificielles en se fondant sur une technologie récente nommée Large Language Models.

Les réseaux de neurones des Large Language Models contiennent des centaines de milliards de paramètres correspondant à tout ce qui caractérisent tant la forme que le fond des documents découverts: concepts, mots, types de contenu, tonalité des textes... et ce dans des dizaines de langues.

Lorsque l'on demande à GPT3 qui est le plus performant des langages models à l'heure de l'écriture du présent article, il transforme la demande formulée en français (appelée "prompt"), en une suite de paramètres, qui sont ensuite utilisés pour créer le texte demandés ou plutôt les textes demandés. En effet, GPT3 n'étant jamais certain de rédiger le bon texte, il évalue en permanence plusieurs alternatives et calcule en se fondant sur des probabilités la version qui a le plus de chance de convenir au demandeur. Il est d'ailleurs capable, si on lui demande de rédiger plusieurs textes pour une même demande.

Devenez un utilisateur professionnel de ChatGPT et de GPT3, avec notre formation à GPT / ChatGPT

En tout état de cause, cinq éléments contraignent le fonctionnement de GPT:

La neutralité

GPT prend rarement partie. Il s'efforce de présenter le consensus ou, dans le cas, où le consensus n'existe pas, il présente les principaux points de vue

L'écrêtement des extrêmes

Les points de vues "secondaires", même pertinents, sur un sujet (des extrêmes au sens statistique) sont éliminés des contenus pris en compte par GPT

Une thèse d'un très grand expert, très juste, , mais peu présente sur internet, sera ainsi ignorée.

L'incapacité à traiter des demandes sur des sujets rares

Si un concept, un sujet sont peu traités sur internet, GPT3 ne pourra pas suffisamment "s'entrainer" pour comprendre ces concepts et sera incapable de générer du texte sur ce sujet.

Récence des sujets

Par ailleurs, le jeu de données d'entraînement (les millions de documents) sur lesquels GPT3 a appris, ont au moins un an. Il ne peut, ainsi, s'exprimer sur des sujets d'actualité ou récents.

GPT est, donc le coeur technologique qui fait fonctionner ChatGPT

Mais ChatGPT (ou Chat GPTPro, la version payante) n'est qu'un sous produit de GPT.

Apprendre à reconnaître le style de ChatGPT

Avec de l'entraînement en utilisant lui-même vraiment ChatGPT, un enseignant peut, sans outil, détecter, une grande partie des textes des élèves, rédigés par ChatGPT

Le style de GTP et de ses futurs concurrents (comme Sparrow de Google) rompt avec le style habituel de l'élève (voir les raisons ci dessous). A cet égard, le style de référence de l'élève serait le style des textes qu'il rédige dans le cadre d'un devoir sur table (et sans smartphone !)
ChatGPT ne fait que, très rarement, des fautes d'orthographes ou de grammaire... ce qui est le cas de peu d'élèves et étudiants. Si un paragraphe ne contient aucune erreur alors que les autres paragraphes en sont truffés, il y a peut-être un petit coup de GPT dans le devoir !
ChatGPT n'utilise pas les expressions à la mode dont sont parsemés les écrits des élèves
ChatGPT n'écrit pas comme il parle. Or, certains élèves écrivent comme ils parlent.

Plus généralement, on peut demander à ce que les textes rédigés par GPT recourent à un style académique, professionnel, non technique, humoristique ou encore commercial, par exemple.

Mais, quelque soit l'option sélectionnée, les textes que les élèves ou étudiants vont demander à GPT de rédiger, présentent les caractéristiques suivantes

Ils contiennent peu d'aspérités, peu d'originalité, peu de déviance par rapport à la norme (règles orthographiques ou de grammaire)
Ils ne contiennent aucune idée originale
Ils ne contiennent aucune référence à l'actualité
Ils sont systématiquement "équilibrés", raisonnables et le point de vue se veut être neutre. On trouve, par exemple, au début de ces textes, une surreprésentation des locutions telles que "en effet", "malgré que", "en conséquence", "on note", "il est important" dont les outils de type ChatGPT font un usage abusif à l'instar d'un élève qui souhaiterait souligner les articulations de sa pensée de façon maladroite.

Evidemment, personne, même les humains, n'est jamais totalement neutre dans la mesure où chacun se réfère à un ensemble de postulats, de valeurs ou d'éléments culturels communément accepté. A cet égard, pour ce que l'auteur de cet article a pu en constater, l'objectivité/la neutralité de GTP correspond à un point de vue plutôt occidental, plutôt nord américain et plutôt "progressiste".

Ceci semble être renforcé par des garde-fous créés par OpenAI

Les sujets sensibles sont traités de façon spécifique et particulièrement prudente: sexe, santé, finances, politique, activités illégales...
Certaines réponses semblent être biaisées par des humains et représenter le point de vue d'Open AI. Ce phénomène est très rare.

Voici un exemple de texte caractéristique du style de ChatGPT et des expressions caractéristiques de ChatGPT (en gras).

Question posée

Démontre moi que les Gafams ont des activités de lobbying agressives en Europe.

Réponse de ChatGPT

"Il est difficile de démontrer de manière concluante que les gafams (Google, Apple, Facebook, Amazon et Microsoft) ont des activités de lobbying agressives en Europe, car cela dépend de la perspective de chacun.

Certaines personnes peuvent considérer que les gafams ont une influence excessive sur les décisions politiques et réglementaires en Europe, tandis que d'autres peuvent considérer que leur lobbying est légitime et nécessaire pour défendre leurs intérêts.

Il est vrai que les gafams sont de grandes entreprises technologiques qui ont une influence considérable sur le marché et sur la société. En tant que telles, elles ont des ressources importantes pour mener des activités de lobbying et influencer les décisions politiques et réglementaires qui les concernent.

Cependant, il existe également des lois et des réglementations en Europe qui encadrent les activités de lobbying et qui visent à assurer la transparence et la responsabilité des entreprises dans ce domaine.

Il est important de noter que le lobbying peut être un moyen légitime pour les entreprises de défendre leurs intérêts et de contribuer à la prise de décision politique, mais il est également important de veiller à ce que les intérêts des citoyens et de la société soient pris en compte de manière équitable.

En fin de compte, il revient aux décideurs politiques et aux citoyens de déterminer si les activités de lobbying des gafams sont agressives ou non."

Par ailleurs, lorsqu'on lui demande de rédiger un texte en français, de nombreux mots n'existant qu'en Québécois sont parfois intégrés (exemple: rapportage au lieu de reporting).

Utiliser les logiciels qui détectent les textes écrits par ChatGPT

Enfin, ultimement, on peut recourir à des logiciels qui détectent les textes rédigés par GPT ou d'autres systèmes concurrents.

Ces textes qui ne sont pas infaillibles, restent assez efficaces.

Ces outils s'appuient sur les différences sémantique ou de structure entre les textes générés par ChatGPT et ceux générés par des humains.

Demain, ils s'appuieront aussi sur des "watermarks", des tampons invisibles des lecteurs humains et insérés directement par ChatGPT dans les textes qu'il génèrera qui pourront être détectés par les logiciels équipés de module de détection de ces "watermarks".

Mais attention, ces outils de détection de la fraude ChatGPT sont engagés dans une course technologiques avec les éditeurs des solutions telles que ChatGPT, dont les prochaines versions produiront des textes singeant encore mieux les productions humaines. les logiciels de détection des textes générés par ChatGPT devront donc se mettre à jour.

Dernier détail très important: si un étudiant corrige le texte fourni par ChatGPT, il peut faire passer ses textes pour des textes "humains" car il met en échec les logiciels de détection de la fraude ChatGPT.

Liste de logiciels de détection des textes écrits par ChatGPT

Draft&Goal

Ce détecteur fonctionne actuellement uniquement en anglais, mais l'équipe qui l'a développé travaille activement à une version multilingue pour aider les enseignants et les plateformes de contenu à identifier les contenus générés par des machines. L'outil est assez efficace.

: Raphaël Richard, 24pm Academy; 20 janvier 2023, 10:28

Formation à GPT3 et ChatGPT

Comment détecter la fraude ChatGPT dans les dissertations, rapports, thèse et devoirs

Comprendre le fonctionnement de ChatGPT pour détecter la fraude

Apprendre à reconnaître le style de ChatGPT

Question posée

Réponse de ChatGPT

Utiliser les logiciels qui détectent les textes écrits par ChatGPT

Liste de logiciels de détection des textes écrits par ChatGPT

Draft&Goal

GPT Radar

GPTZero

Originality

Content At Scale detector

Copyleaks AI Content Detector

Grover

Writer AI content detector tool

PoemOfQuotes

Crossplag

Sapling

EXCLUSIF

Nouveau !

Recevez des exclus !

A lire absolument

Ressources

Contenus liés

connexion

Formation Intelligence Artificielle

Formations Marketing Digital

Ressources gratuites

Search