Sommaire
8 outils de détection IA passés au crible
De nombreux professionnels souhaitent disposer des outils pour distinguer les contenus produits par l’IA de ceux obtenus grâce à chatGPT ou d’autres IA génératives : les enseignants veulent par exemple identifier les élèves qui trichent, tandis que les professionnels du marketing souhaitent s’assurer de disposer de contenus conformes à leurs attentes lorsqu’ils recourent à des rédacteurs professionnels. De nombreux outils sont apparus sont apparus ces derniers mois sur le marché, dont certains par pur opportunisme, et ils montrent pour une part non négligeable d’entre eux une fiabilité pour la moins… limitée !
Je vous invite à le constater par vous-même à travers ce test de la qualité d’e l’analyse des contenus IA portant sur 8 outils de détection disponibles gratuitement ou en accès freemium.
Quelle est la méthodologie de ce test d’outils de détection IA ?
Ces tests ont pour objectifs d’identifier à la fois les faux positifs et les faux négatifs.
La remontée de faux positifs peut engendrer des problèmes variés :
- Des étudiants peuvent être à tort accusés de triche ;
- Des rédacteurs sérieux et honnêtes peuvent voir leur réputation ternie.
Les faux négatifs peuvent quant à eux poser problème si vous souhaitez écarter les contenus rédigés par une intelligence artificielle.
Les textes dont la rédaction humaine est garantie :
- Un extrait de Pride and Prejudice (Orgueil et Préjugés), roman de Jane Austen publié en 1813 et traduit en 1932 ;
- Un extrait de Michel Strogoff, roman de Jules Verne paru en 1876 ;
- Un extrait de La Boîte à outils du SEO, ouvrage que j’ai publié en 2021 ;
- Un texte sur la RQTH, que j’ai rédigé moi-même pour ce test.
Les textes dont la rédaction a été confiée à l’IA :
- Un texte sur le tourisme généré par ChatGPT 4o
- Un texte sur le tourisme généré par Claude.ai 3.5 Sonnet
- Un texte sur le SEO généré par ChatGPT 4o
- Un texte sur le SEO généré par Claude.ai 3.5 Sonnet
- Un texte sur la RQTH généré par ChatGPT 4o
- Un texte sur la RQTH généré par Claude.ai 3.5 Sonnet
Les deux œuvres littéraires ont été analysées par curiosité intellectuelle. Nous avons également deux comparaisons de textes sur des problématiques identiques (SEO et RQTH).
Dans un souci de transparence, je vous invite à consulter les textes et les prompts utilisés dans ce test. Je n’ai volontairement utilisé aucune charge avec un prompt relativement simple, pour obtenir des résultats assez proches de ce que les solutions génératives peuvent produire par défaut.
Quels sont les résultats obtenus par les outils de détection d’IA ?
J’ai passé ces 4 textes sur 10 outils de détection d’IA. Certains outils fonctionnent sur un principe on / off (plutôt Humain ou plutôt IA), tandis que d’autres précisent un pourcentage. Je vous communique les résultats obtenus en mettant l’accent sur la détection de contenu généré par l’intelligence artificielle :
- Détection IA de 0% = texte 100% humain
- Détection IA de 100% = texte 100% IA
Ces tests ont été réalisés le 2 novembre 2024. Et maintenant, les résultats que vous attendez tous ! Les outils sont classés par ordre alphabétique dans un souci de transparence.
Copyleaks.com
Une détection sans faille sur les dix contenus testés, et l’absence totale de faux positifs ou de faux négatifs. C’est le premier de ma liste par ordre alphabétique, mais c’est aussi le premier en termes de performances.
Texte | Détection IA |
---|---|
Jane Austen (roman) | Humain |
Jules Verne (roman) | Humain |
Benjamin Thiers (tourisme) | Humain |
Benjamin Thiers (SEO) | Humain |
Benjamin Thiers (RQTH) | Humain |
ChatGPT (tourisme) | IA |
Claude.AI (tourisme) | IA |
ChatGPT (SEO) | IA |
Claude.AI (SEO) | IA |
ChatGPT (RQTH) | IA |
Claude.AI (RQTH) | IA |
Gptzero.me
De sérieux problèmes de pertinence, avec des faux positif sur des textes humains et des faux négatifs sur les textes IA. J’ai le sentiment d’avoir affaire à un outil opportuniste (il suffit de voir le nom de domaine) qui repose plus sur une fonction random qu’un véritable algorithme.
Texte | Détection IA |
---|---|
Jane Austen (roman) | 2% |
Jules Verne (roman) | 9% |
Benjamin Thiers (tourisme) | 1% |
Benjamin Thiers (SEO) | 28% |
Benjamin Thiers (RQTH) | 51% |
ChatGPT (tourisme) | 4% |
Claude.AI (tourisme) | 27% |
ChatGPT (SEO) | 6% |
Claude.AI (SEO) | 53% |
ChatGPT (RQTH) | 100% |
Claude.AI (RQTH) | 26% |
Huggingface.co
Cet outil présente une bonne détection des contenus IA, à l’exception d’un faux négatif sur un texte ChatGPT, et ne produit pas de faux positifs.
Texte | Détection IA |
---|---|
Jane Austen (roman) | Humain |
Jules Verne (roman) | Humain |
Benjamin Thiers (tourisme) | Humain |
Benjamin Thiers (SEO) | Humain |
Benjamin Thiers (RQTH) | Humain |
ChatGPT (tourisme) | Humain |
Claude.AI (tourisme) | IA |
ChatGPT (SEO) | IA |
Claude.AI (SEO) | IA |
ChatGPT (RQTH) | IA |
Claude.AI (RQTH) | IA |
Quillbot.com
Aucun faux positif, mais une grosse permissivité pour les textes produits avec ChatGPT.
Texte | Détection IA |
---|---|
Jane Austen (roman) | 0% |
Jules Verne (roman) | 0% |
Benjamin Thiers (tourisme) | 0% |
Benjamin Thiers (SEO) | 0% |
Benjamin Thiers (RQTH) | 0% |
ChatGPT (tourisme) | 0% |
Claude.AI (tourisme) | 59% |
ChatGPT (SEO) | 0% |
Claude.AI (SEO) | 100% |
ChatGPT (RQTH) | 0% |
Claude.AI (RQTH) | 30% |
Smodin.io
Encore un outil dont la détection se fait “au doigt mouillé”. Un seul contenu remonte comme rédigé par l’IA, tandis que les trois autres textes passent sous les radars.
Texte | Détection IA |
---|---|
Jane Austen (roman) | 0% |
Jules Verne (roman) | 0% |
Benjamin Thiers (tourisme) | 0% |
Benjamin Thiers (SEO) | 0% |
Benjamin Thiers (RQTH) | 0% |
ChatGPT (tourisme) | 0% |
Claude.AI (tourisme) | 0% |
ChatGPT (SEO) | 100% |
Claude.AI (SEO) | 0% |
ChatGPT (RQTH) | 60% |
Claude.AI (RQTH) | 35% |
Surferseo.com
Malgré un branding “SEO”, cet outil montre de sérieuses limites pour détecter les textes produits par l’IA, plus particulièrement sur la thématique du tourisme.
Texte | Détection IA |
---|---|
Jane Austen (roman) | 3% |
Jules Verne (roman) | 2% |
Benjamin Thiers (tourisme) | 1% |
Benjamin Thiers (SEO) | 2% |
Benjamin Thiers (RQTH) | 4% |
ChatGPT (tourisme) | 2% |
Claude.AI (tourisme) | 1% |
ChatGPT (SEO) | 31% |
Claude.AI (SEO) | 38% |
ChatGPT (RQTH) | 4% |
Claude.AI (RQTH) | 3% |
Writer.com
Aucun faux positif, mais une réelle faiblesse pour détecter les contenus générés par l’IA. Cet outil n’est pas pertinent, car il ne remplit pas les objectifs annoncés.
Texte | Détection IA |
---|---|
Jane Austen (roman) | 0% |
Jules Verne (roman) | 10% |
Benjamin Thiers (tourisme) | 0% |
Benjamin Thiers (SEO) | 0% |
Benjamin Thiers (RQTH) | 0% |
ChatGPT (tourisme) | 13% |
Claude.AI (tourisme) | 14% |
ChatGPT (SEO) | 16% |
Claude.AI (SEO) | 14% |
ChatGPT (RQTH) | 10% |
Claude.AI (RQTH) | 12% |
ZeroGPT.com
Des faux positifs réellement problématiques (y compris sur un chef d’œuvre de la littérature anglaise, traduit avec un soin incontestable), qui rendent l’outil inutilisable : j’ai la sensation qu’il s’agit plus d’une fonction random que d’un véritable algorithme de détection. C’est le même souci que GPTzero.me, nous sommes devant une solution créée par opportunité et appât du gain sans pertinence derrière.
Texte | Détection IA |
---|---|
Jane Austen (roman) | 43% |
Jules Verne (roman) | 0% |
Benjamin Thiers (tourisme) | 100% |
Benjamin Thiers (SEO) | 22% |
Benjamin Thiers (RQTH) | 100% |
ChatGPT (tourisme) | 100% |
Claude.AI (tourisme) | 100% |
ChatGPT (SEO) | 100% |
Claude.AI (SEO) | 83% |
ChatGPT (RQTH) | 100% |
Claude.AI (RQTH) | 97% |
En conclusion : un seul outil véritablement fiable
Les problèmes sont réels, et de nombreux outils balancent en fonction de leur sensibilité vers des faux positifs (les contenus humains sont considérés comme des contenus IA) et des faux négatifs (les contenus IA demeurent sous les radars). Le véritable enjeu de ces outils consiste à trouver le bon équilibre pour détecter efficacement les contenus produits par une IA sans pour autant remettre en question les textes écrits par des opérateurs humains.
Outil | Faux positifs | Faux négatifs |
---|---|---|
Copyleaks.com | 0 | 0 |
Gptzero.me | 1 | 3 |
Huggingface.co | 0 | 1 |
Quillbot.com | 0 | 4 |
Smodin.io | 0 | 4 |
Surferseo.com | 0 | 6 |
Writer.com | 0 | 6 |
ZeroGPT.com | 2 | 0 |
Faux négatifs : -50% de détection IA (ou Humain pour un texte IA)
Deux outils se démarquent cependant de leurs concurrents :
- Copyleaks.com est le seul outil à avoir réussi 100% des tests, et mérite sa place en tête de ce classement ;
- Huggingface.co a commis un seul faux négatif sur les sept textes analysés, ce qui en fait un outil plutôt fiable.
ZeroGPT.com pose de véritables problèmes de faux positifs à quasiment 100% sur d’autres textes que ceux de cet essai. La remontée à 43% de la traduction du texte de Jane Austen me pose un réel souci.
Ces tests ne sont évidemment pas exhaustifs, et je suis certain que vous arriverez à prendre en défaut Copyleaks.com sur certains contenus. Si nous devons retenir un seul enseignement, c’est que la détection IA est très difficile et plutôt aléatoire dans de nombreux cas.