Comment vérifier si un texte vient d'une IA ?

Un détecteur de texte IA est un classificateur statistique : il calcule la probabilité que chaque mot d’une séquence ait été prédit par un modèle de langage, puis agrège ces probabilités pour attribuer un score global au texte. Cette mécanique, commune à la quasi-totalité des outils du marché, repose sur un concept précis qu’il faut comprendre avant de choisir un outil ou d’interpréter un résultat.

Sommaire

Perplexité et entropie : le socle technique de la détection IA Faux positifs sur les textes non natifs : un biais documenté des détecteurs Outils de détection IA : GPTZero, Scribbr, Copyleaks comparés Indices manuels pour repérer un texte généré par ChatGPT Watermarking IA et obligations légales à venir en Europe

Perplexité et entropie : le socle technique de la détection IA

Les modèles de langage comme ChatGPT génèrent du texte en prédisant le mot suivant avec une forte probabilité. Le résultat est un texte à faible perplexité, où chaque mot s’enchaîne de façon statistiquement prévisible.

A lire en complément : Pourquoi l’IA ne peut-elle pas remplacer les humains ?

Un texte humain, à l’inverse, présente des ruptures de rythme, des choix lexicaux moins probables, des digressions. Sa perplexité est plus élevée et plus irrégulière d’une phrase à l’autre.

Les détecteurs exploitent cet écart. Ils mesurent la distribution de probabilité des mots dans le texte soumis, puis comparent le profil obtenu à celui d’un texte généré par un modèle connu. Quand la perplexité reste basse et régulière sur l’ensemble du texte, le détecteur augmente son score de contenu IA.

A lire en complément : Quelle technologie est la meilleure pour l’avenir ?

Cette approche a une limite directe : un rédacteur humain qui écrit de façon très structurée, avec un vocabulaire courant et des phrases calibrées, peut produire un texte à faible perplexité. Le détecteur le signalera comme suspect. C’est la source principale des faux positifs.

Faux positifs sur les textes non natifs : un biais documenté des détecteurs

Professionnel utilisant un outil en ligne pour vérifier si un texte a été écrit par une IA

Les locuteurs non natifs rédigent souvent avec un vocabulaire plus restreint et des structures syntaxiques plus régulières que les locuteurs natifs. Cette régularité produit exactement le profil statistique que les détecteurs associent au contenu généré par IA.

Ce biais a été documenté par plusieurs travaux de recherche. Il pose un problème concret dans les contextes éducatifs et professionnels où la détection IA sert de filtre : un texte rédigé par un non-natif peut être classé à tort comme généré par une machine.

Avant de tirer une conclusion d’un résultat de détection, le profil linguistique de l’auteur devrait être pris en compte. Aucun outil grand public ne propose cette nuance dans son analyse.

Outils de détection IA : GPTZero, Scribbr, Copyleaks comparés

Trois familles d’outils dominent le marché francophone de la détection de contenu IA. Leurs approches diffèrent sur plusieurs points techniques.

GPTZero analyse la perplexité et la variabilité phrase par phrase (burstiness). Il fournit un score global et surligne les passages les plus suspects. La version gratuite accepte des textes courts.
Le détecteur de Scribbr, adossé à un logiciel anti-plagiat, combine détection IA et vérification de sources. Il prend en charge le français, l’anglais, l’espagnol et l’allemand, et propose une version gratuite limitée à 1 200 mots par analyse.
Copyleaks mise sur une détection multilingue et des intégrations techniques (API, extension navigateur, connecteur LMS). Il cible davantage les établissements d’enseignement et les entreprises.

Ces trois outils partagent une caractéristique : aucun ne garantit un taux de précision absolu. Les résultats varient selon la longueur du texte, la langue, le modèle de langage utilisé pour la génération, et les éventuelles retouches humaines appliquées après génération.

Indices manuels pour repérer un texte généré par ChatGPT

Les outils automatisés ne remplacent pas une lecture attentive. Plusieurs marqueurs stylistiques reviennent fréquemment dans les textes produits par des modèles de langage.

Les textes générés par ChatGPT utilisent une structure en listes symétriques et en triplets : trois arguments, trois exemples, trois avantages. Le modèle privilégie les formulations génériques (« il convient de noter », « dans un monde où ») et les transitions signalétiques (« voyons maintenant », « passons à »).

L’absence de position tranchée constitue un autre indice. ChatGPT produit par défaut des textes qui présentent le pour et le contre sans jamais trancher. Un article humain, même équilibré, finit par orienter le lecteur vers une conclusion.

La profondeur factuelle reste le critère le plus fiable. Un texte IA couvre un sujet en surface avec des formulations correctes mais vagues. Il cite rarement des noms propres précis, des dates vérifiables ou des sources identifiées. Un texte sans aucune donnée spécifique ni source nommée mérite un examen approfondi.

Watermarking IA et obligations légales à venir en Europe

Deux collègues examinant ensemble un rapport d'analyse pour identifier un contenu rédigé par une IA

L’AI Act européen prévoit une obligation de marquage lisible par machine des contenus générés par IA. Ce tatouage numérique (watermarking) doit permettre une identification automatique, sans recourir à un détecteur externe.

Le calendrier d’application prévoit une mise en oeuvre progressive à partir du 2 août 2026, puis une obligation de watermarking des contenus générés par IA à partir du 2 décembre 2026. Cette réglementation concerne les fournisseurs de systèmes d’IA, pas les utilisateurs finaux.

Conséquence pratique : les détecteurs statistiques actuels pourraient devenir un outil de transition. Si le watermarking se généralise, la vérification d’un texte passera par la lecture d’une signature intégrée au contenu plutôt que par une analyse probabiliste externe.

Les détecteurs eux-mêmes tombent sous le périmètre de l’AI Act. Classés comme systèmes d’IA non à haut risque, ils doivent informer l’utilisateur qu’il interagit avec un système d’IA, sans obligation lourde de conformité technique.

La détection de texte IA reste une estimation statistique, pas une preuve. Croiser un outil automatisé avec une analyse manuelle des marqueurs stylistiques donne un résultat plus fiable qu’un score isolé. L’arrivée du watermarking réglementaire changera la donne, mais d’ici fin 2026, la vigilance humaine reste le filtre le plus sûr.