Le système ChatGPT d’OpenAI gagne constamment en capacités. Néanmoins, il conserve son avertissement habituel : “ChatGPT peut commettre des erreurs. Vérifiez les informations cruciales.”
Mais quelle est réellement la fiabilité de ChatGPT ? La réponse à cette question s’avère plus complexe qu’il n’y paraît. En effet, la précision de ChatGPT fluctue en fonction de divers paramètres, et peut même évoluer au fil du temps.
Explorons ensemble les subtilités de la précision de ChatGPT.
Chiffres clés sur la précision de ChatGPT
- ChatGPT atteint une précision d’environ 88%
- Un même modèle de ChatGPT peut gagner ou perdre en précision au fil du temps
- ChatGPT se montre le plus fiable en anglais
- ChatGPT-4o représente le modèle OpenAI le plus précis à ce jour
Taux de précision de ChatGPT
D’après les dernières recherches sur la compréhension linguistique multitâche à grande échelle, ChatGPT affiche un taux de précision de 87,8%.
Plus spécifiquement, ChatGPT-4o a récemment été soumis au test de compréhension linguistique multitâche à grande échelle (MMLU) et comparé à d’autres modèles de langage de grande envergure populaires.
Le test MMLU, conçu début 2021, vise à quantifier l’intelligence des modèles de langage de grande taille. Il comprend des dizaines de questions couvrant divers domaines, des mathématiques à l’histoire en passant par l’informatique et bien d’autres disciplines.
L’étude initiale présentant le test MMLU a largement évalué GPT-3, une version précoce de ChatGPT. Cet outil s’est distingué dans certaines matières, atteignant un taux de précision de 60% ou plus en politique étrangère américaine et en psychologie de niveau lycée.
Cependant, dans des domaines tels que la chimie universitaire et les scénarios moraux, le taux de précision de GPT-3 ne dépassait pas les 25%. Étant donné que chaque question du test propose quatre réponses possibles, ce niveau équivaut à peu près à un choix aléatoire de la part de GPT-3.
Toutefois, les modèles plus récents de ChatGPT – ainsi que d’autres outils d’IA – affichent des performances nettement supérieures. En juillet 2024, le modèle le plus performant est Gemini Ultra de Google (90% de précision), talonné de près par ChatGPT-4o d’OpenAI (88,7% de précision).
Éléments influençant la précision de ChatGPT
La fiabilité de ChatGPT varie selon plusieurs facteurs.
Certains dépendent de l’utilisateur. Par exemple, des requêtes floues ont moins de chances d’obtenir une réponse précise que des demandes spécifiques et bien formulées. De même, s’en tenir aux sujets inclus dans les données d’entraînement de ChatGPT produit généralement des réponses plus fiables. Cela implique d’éviter les informations publiées après la date limite d’entraînement du modèle ChatGPT utilisé.
Cependant, d’autres facteurs échappent au contrôle de l’utilisateur. On pourrait penser que les modèles ChatGPT les plus récents sont systématiquement plus précis. Bien que ce soit souvent le cas, des tests ont révélé que parfois, les modèles plus anciens s’avèrent en réalité plus fiables.
De plus, ChatGPT performe généralement mieux en anglais. Plus une langue est rare – en termes techniques, moins elle dispose de ressources pour les données d’entraînement – moins ChatGPT sera performant.
Enfin, fait peut-être plus préoccupant, des études ont démontré que le taux de précision de modèles ChatGPT spécifiques peut évoluer au fil du temps.
Il est crucial de garder à l’esprit que ChatGPT omet souvent de signaler son incertitude ou ses erreurs. Au lieu de cela, il peut avoir recours à des “hallucinations”.
Évolution de la précision de ChatGPT
La précision de ChatGPT peut se dégrader avec le temps
Une étude de 2023 a révélé que la précision de ChatGPT peut nettement diminuer au fil du temps. Les chercheurs ont soumis GPT-4 au même test en mars puis en juin. La capacité du modèle à identifier correctement les nombres premiers s’est effondrée, passant de 84% de précision en mars à 51% en juin. GPT-4 et GPT-3.5 se sont également montrés moins précis dans la production de code en juin qu’en mars.
Ces variations de précision au fil du temps sont appelées “dérive”. La dérive pourrait résulter de modifications visant à améliorer le modèle dans d’autres domaines. Même des changements mineurs et ciblés sur certaines parties du modèle pourraient avoir des répercussions imprévues sur sa performance globale.
Mais sa précision peut aussi s’améliorer
La même étude a constaté que la précision de ChatGPT peut également progresser plutôt que régresser. Par exemple, GPT-3.5 s’est révélé bien plus précis dans l’identification des nombres premiers en juin qu’en mars. GPT-4 a également mieux performé sur une tâche différente en juin.
Les chercheurs de cette étude ont souligné que ces changements mettent en évidence la nécessité d’un “suivi continu des modèles de langage de grande taille” comme ChatGPT.
ChatGPT-4 surpasse GPT-3.5 pour répondre aux questions obscures
En mai, un rédacteur d’Android Authority a testé différentes versions de ChatGPT sur divers exercices. Il a constaté que GPT-4o était plus précis que GPT-4, lui-même plus fiable que GPT-3.5. Cette supériorité était particulièrement marquée pour les questions plus obscures, peut-être grâce à la capacité de GPT-4o à effectuer des recherches sur internet.
Par exemple, GPT-4 a pu répondre avec précision à une question sur un pass de voyage au Japon. GPT-3.5, en revanche, a produit une hallucination.
ChatGPT gagne en précision pour les examens difficiles
Selon une étude publiée en décembre 2022, ChatGPT s’est progressivement amélioré dans la résolution de l’examen d’obtention de licence médicale aux États-Unis. L’USMLE est un programme exigeant composé de trois examens, obligatoire pour qu’un docteur en médecine obtienne sa licence.
Les premiers modèles de ChatGPT n’atteignaient que 36,7% de précision à l’USMLE. ChatGPT-3 est parvenu à 46% de précision, un chiffre qui a atteint 50% avec un certain entraînement. L’étude elle-même a révélé que ChatGPT dépassait les 60% – la note de passage habituelle – dans la plupart des cas.
GPT-4o est 3,1% moins précis que GPT-4 Turbo en compréhension de lecture
Fait intéressant, les tests internes d’OpenAI ont montré que GPT-4o était légèrement moins précis que son prédécesseur immédiat en compréhension de lecture. Le test DROP (f1) implique de répondre à des questions complexes. La précision nécessite un haut niveau de raisonnement. Alors que GPT-4 Turbo a obtenu 86 points, GPT-4o a obtenu 83,4. Cela rend également GPT-4o moins précis en compréhension de lecture que Llama3 400b, mais seulement de 0,1 point.
ChatGPT-4 génère moins d’hallucinations que GPT-3.5
Une étude publiée en mai 2024 a testé plusieurs outils d’IA sur leur capacité à effectuer des revues systématiques – en d’autres termes, à générer des références à des écrits scientifiques. Le taux d’hallucination de ChatGPT-3.5 était de 39,6%, nettement supérieur aux 28,6% de GPT-4.
Précision de ChatGPT
La précision est souvent confondue avec l’exactitude, mais les deux notions diffèrent.
Une bonne façon de les distinguer est d’imaginer un archer tirant des flèches sur une cible. Si l’archer touche le même point à chaque fois, il est très précis. Si ce point est le centre de la cible, l’archer est à la fois précis et exact. Mais si ce point est loin du centre, l’archer est précis mais inexact.
Pour les outils d’IA, une haute précision implique une moindre probabilité de générer des faux positifs. Par exemple, un chatbot imprécis pourrait répondre incorrectement à une requête mais marquer cette requête comme résolue avec succès. Il s’agirait d’un faux positif.
GPT-4o affiche une précision de 86,21%
Cela fait de GPT-4o le modèle d’IA le plus précis disponible, en juillet 2024.
GPT-4 et GPT-3.5 sont plus précis que Bard
Les trois modèles d’IA ont été chargés d’effectuer des revues systématiques, c’est-à-dire de générer des citations scientifiques. ChatGPT-3.5 a obtenu un taux de précision de 9,4%, GPT-4 de 13,4%, tandis que Bard a obtenu 0%.
Précision de ChatGPT dans les domaines médicaux
ChatGPT-3.5 est précis à 84,8% en neurolocalisation
En 2023, ChatGPT-3.5 a été testé sur diverses questions relatives à la neurolocalisation, ou le diagnostic des affections du système nerveux. Une équipe de sept neurochirurgiens a évalué les réponses du modèle, concluant qu’il avait généré des réponses “entièrement correctes” ou “majoritairement correctes” dans 84,8% des cas.
ChatGPT-4 surpasse l’humain moyen aux examens médicaux
OpenAI a mené des tests approfondis sur GPT-4 avant sa sortie. Le modèle a passé divers examens, dont le programme d’auto-évaluation des connaissances médicales. Ses performances ont varié, mais elles ont souvent dépassé celles des candidats humains. Par exemple, il a obtenu 64% à la banque de questions web de l’examen de certification de spécialité en neurologie. En comparaison, le score moyen des candidats humains ayant passé cet examen était de 60,2%.
ChatGPT a atteint un score médian de précision de 5,5 sur 6 en répondant à des questions médicales
En octobre 2023, un groupe de chercheurs a testé les performances de GPT-3.5 et GPT-4 sur un ensemble de 284 questions médicales. Les questions ont été générées par un groupe de 33 médecins. Les réponses ont été notées sur une échelle de 1 à 6, où 6 est entièrement correct.
ChatGPT a obtenu un score médian de 5,5 sur l’ensemble des questions, et un score moyen de 4,8. Pour les questions faciles, il a atteint un score médian de 6,0, tandis que les questions difficiles ont donné lieu à un score médian de 5,0.
ChatGPT-3.5 était précis à 86,6% dans le diagnostic des affections urologiques courantes, surpassant Google
Cette étude, publiée en mai 2024, a comparé ChatGPT-3.5 à Google Search pour le diagnostic des affections urologiques. Google Search avait une précision de seulement 53,3% pour les affections courantes, tandis que ChatGPT-3.5 atteignait 86,6%.
ChatGPT-3.5 s’est nettement moins bien comporté dans l’évaluation des troubles rares. Il n’a fourni des réponses précises que dans 16,6% des cas.
ChatGPT-3.5 a obtenu une précision médiane de 4 sur 6 en répondant aux résultats de tests médicaux, moins bien que Copilot
Cette étude a été publiée en avril 2024. ChatGPT-3.5, Copilot et Gemini ont été testés sur leurs réponses aux résultats de certains tests d’urée et de créatine. GPT-3.5 et Gemini ont tous deux obtenu une médiane de 4 sur 6. Copilot a obtenu une médiane de 5.
ChatGPT était précis à moins de 66% dans l’identification des interactions médicamenteuses, moins que BingAI et Bard
ChatGPT est précis à 72% dans la prise de décision clinique tous domaines médicaux confondus (Mass General Brigham)
Cette étude, publiée en août 2023, a testé ChatGPT dans diverses situations cliniques. Il devait prendre des décisions similaires à celles des professionnels de santé humains. Dans l’ensemble, ses réponses étaient précises à 72%.
ChatGPT a obtenu les meilleurs résultats pour établir les diagnostics finaux, atteignant 77% de précision. Il était moins précis pour prendre des décisions de gestion clinique – par exemple, choisir quels médicaments utiliser après avoir établi un diagnostic – avec seulement 68% de réponses précises.
ChatGPT n’est précis qu’à 60% pour établir des diagnostics différentiels
Un diagnostic différentiel est une situation où un clinicien doit différencier entre plusieurs conditions possibles qui se présentent de manière similaire. Ce sont souvent des décisions difficiles à prendre, et il n’est donc pas surprenant que ChatGPT ait eu du mal. Seulement 60% de ses tentatives étaient précises.
Selon l’un des chercheurs impliqués dans cette étude, ce résultat “nous indique où les médecins sont vraiment experts et apportent le plus de valeur ajoutée”.
ChatGPT a répondu correctement à 77,5% des questions médicales
Dans cette étude, publiée dans Nature en janvier 2024, ChatGPT-3.5 a été testé sur 120 questions relatives à la gestion des maladies. Il a réussi à répondre correctement à 77,5% des questions. Cependant, seules 61,7% de ses réponses étaient à la fois correctes et complètes selon les directives professionnelles.
Fait intéressant, les chercheurs ont noté que ChatGPT performait mieux dans certains sujets que dans d’autres. Ils ont émis l’hypothèse que cela pourrait être dû à des volumes d’information différents sur les divers sujets dans les données d’entraînement de ChatGPT.
ChatGPT a atteint plus de 50% de précision dans tous les examens de licence médicale américaine
L’USMLE est un programme composé de trois examens. La réussite est nécessaire pour qu’un individu devienne un médecin agréé. Dans une étude publiée en décembre 2022, ChatGPT a bien performé sur les trois examens de l’USMLE. Il était précis à plus de 50% dans tous les examens, et dépassait souvent 60% de précision. Bien que le seuil de réussite varie selon les années, il se situe généralement autour de 60%.
Précision de ChatGPT par rapport aux autres modèles d’IA
ChatGPT-4o est précis à 99% en classification, surpassant ses concurrents
En mai 2024, l’ingénieur en LLM Lars Wiik a testé ChatGPT-4o sur un jeu de données qu’il a lui-même créé. Le jeu de données comprenait 200 phrases, chacune catégorisée dans l’un des 50 sujets.Le test consistait à attribuer correctement une phrase à son sujet. ChatGPT-4o n’a commis que deux erreurs. ChatGPT-4o s’est révélé le plus précis, surpassant les versions précédentes de ChatGPT et Gemini.
ChatGPT surpasse PubMedGPT lors d’un examen médical crucial
Une étude publiée en décembre 2022 a montré que ChatGPT atteignait souvent plus de 60% de précision à l’examen d’obtention de licence médicale aux États-Unis. Fait intéressant, il s’est avéré plus précis que PubMedGPT, qui n’a obtenu que 50,8% de précision. PubMedGPT ressemble à ChatGPT, mais a été entraîné uniquement sur des documents scientifiques. Selon les auteurs de l’étude, l’avantage de ChatGPT pourrait provenir de son “exposition à un contenu clinique plus large… plus définitif”, plutôt que d’être formé uniquement sur la littérature scientifique souvent non concluante ou ambivalente.
ChatGPT-4o surpasse Claude, Gemini et Llama dans quatre tests clés
Lors du lancement de ChatGPT-4o, OpenAI a vanté ses performances remarquables dans six tests couramment appliqués aux modèles de langage de grande taille. Dans certains cas, les performances de GPT-4o n’étaient que légèrement supérieures. Par exemple, il a atteint 88,7% de précision dans le MMLU. C’est seulement 0,9% de mieux que Claude3 Opus, et 2,6% de mieux que Llama3 400b.
Dans d’autres cas, GPT-4o a démontré des améliorations substantielles en termes de précision. Dans le test MATH, GPT-4o a atteint 76,6% de précision. C’est environ 20% de mieux que Gemini Pro 1.5 et Gemini Ultra 1.0.
Mais il est parfois moins précis
Comme on peut le constater sur le graphique, GPT-4o n’était pas toujours plus précis que ses concurrents. Dans le test Multilingual GSM8K (MGSM) – composé de problèmes arithmétiques dans différentes langues – GPT-4o était légèrement moins précis que Claude3 Opus.
ChatGPT génère 105% moins d’hallucinations que Bard
Dans cette étude, ChatGPT-4 et Bard ont été chargés de produire des références scientifiques. Bard a généré des hallucinations dans un inquiétant 91,4% des cas. Le taux d’hallucination de GPT-4 était de 28,6% – toujours élevé, mais bien inférieur à celui de Bard.
Précision de ChatGPT dans différentes langues
Comme nous l’avons évoqué précédemment, ChatGPT reste fondamentalement un outil anglophone. Plusieurs études ont démontré que ChatGPT performe mieux en anglais. Dans d’autres langues, en particulier celles disposant de moins de ressources – matériel sur lequel le modèle peut s’entraîner – ChatGPT éprouve des difficultés.
ChatGPT-4o est précis à 99% en anglais, mais légèrement moins dans d’autres langues
Lars Wiik, ingénieur en modèles de langage de grande taille, a testé divers modèles d’IA sur un jeu de données traduit de l’anglais vers plusieurs langues européennes. Les résultats suggèrent que ChatGPT est généralement très précis, et que les nouveaux modèles sont plus précis que les anciens – bien que ce ne soit pas toujours vrai. En russe, par exemple, GPT-4 Turbo a sous-performé.
ChatGPT-4o est 1-2% moins précis que les IA concurrentes dans les langues non anglophones
Wiik a également testé certains des principaux concurrents d’OpenAI sur le même jeu de données. ChatGPT-4o s’est révélé comparable à Gemini 1.5. GPT-4o était plus précis en anglais, russe, finnois, et les deux étaient à égalité en norvégien. Cependant, Gemini s’est montré plus précis en espagnol, français, allemand, néerlandais et portugais.
Plus important encore, Claude 3 Opus a surpassé GPT-4o dans toutes les langues sauf le norvégien, où les deux ont fait jeu égal.
Précision de ChatGPT dans les tâches non textuelles
À l’origine, les outils d’IA comme ChatGPT étaient unimodaux. Cela signifie qu’ils ne pouvaient traiter que du texte. Bien que nous attendions toujours un outil d’IA véritablement multimodal, les modèles récents, comme GPT-4o, ont mis en œuvre certaines fonctionnalités multimodales.
Cependant, certains rapports indiquent que ChatGPT pourrait être moins précis dans ces tâches visuelles.
La précision de ChatGPT-4 peut chuter à 50% lors de réponses aux requêtes d’images
En mars 2024, un utilisateur des forums OpenAI a signalé avoir rencontré un problème curieux. Il utilisait le modèle de vision préliminaire de GPT-4 pour alimenter un bot qui interprétait et répondait aux questions envoyées sous forme d’images. Initialement, le bot répondait aux questions avec une précision de 80 à 90%. Mais selon l’utilisateur, un jour, la précision s’est effondrée à 50%.
D’autres utilisateurs n’étaient pas sûrs de la raison de ce phénomène. Un utilisateur a rapporté des rumeurs selon lesquelles ChatGPT deviendrait parfois “paresseux”. Cela pourrait être lié à des recherches démontrant que la précision de ChatGPT peut évoluer au fil du temps.
Conclusion
En fin de compte, la précision de ChatGPT varie considérablement. Une grande partie de cette variation échappe à votre contrôle. Cependant, il existe des moyens d’améliorer la précision, comme soumettre des requêtes plus spécifiques.
Bien qu’il ait été démontré que ChatGPT peut parfois devenir moins précis au fil du temps, sa précision s’est généralement nettement améliorée au cours des quelques années qui ont suivi sa sortie initiale.
Continuer à améliorer la précision des modèles sera probablement au cœur de la concurrence en cours entre OpenAI et ses concurrents.
Par conséquent, ChatGPT pourrait bien devenir encore plus précis à l’avenir.
Sources :