Une étude scientifique fondée sur les principes de la physique conteste radicalement les prétentions des grands modèles de langage à comprendre et raisonner. Ces systèmes d’intelligence artificielle simulent sans modéliser le monde causal. Raisonnent-ils vraiment ou corrèlent-ils juste des mots ? Comme un papillon battant des ailes sans saisir la tornade qu’il déclenche.
Corrélation statistique contre causalité physique : le cœur du débat
L’argumentation, issue du champ de la physique, affirme que les LLM, basés sur la prédiction statistique de tokens, ne peuvent pas accéder à une compréhension causale ou à un raisonnement véritable. Leur fonctionnement est comparé à un système de corrélations sans modèle mental du monde, une limite fondamentale de l’apprentissage automatique.
Le mécanisme fondamental d’un LLM, comme l’architecture Transformer, repose sur l’attention pour calculer des probabilités conditionnelles. Ce processus identifie des motifs et des corrélations statistiques dans les données d’entraînement, mais il ne construit pas de modèle explicatif des causes sous-jacentes. Par exemple, un modèle de langage peut prédire avec précision que « l’eau bout à 100°C » parce que cette séquence de mots apparaît fréquemment dans ses textes, et non parce qu’il a modélisé les interactions moléculaires décrites par la physique.
D’un point de vue physique, cette approche contraste avec la compréhension causale qui nécessite de modéliser les interactions et les lois qui régissent les systèmes. Un LLM manipule de l’information en optimisant la prédiction du prochain symbole, mais sans accès aux principes causaux qui relient les événements dans le monde réel. Il fonctionne comme un « zombie philosophique » du langage : capable de produire des réponses cohérentes en surface, mais dépourvu d’un véritable modèle interne du monde qu’il décrit.
Les conséquences immédiates : une remise en cause fondamentale
Cette perspective issue de la physique théorique invalide les revendications de « raisonnement » des modèles et questionne la fiabilité de leurs outputs dans des tâches nécessitant une compréhension profonde, un véritable défi pour l’IA.
Première conséquence : la validité des benchmarks populaires comme le Chatbot Arena est directement interrogée. Ces classements, basés sur des duels subjectifs, mesurent la préférence pour des réponses linguistiquement fluides, pas la robustesse d’une compréhension causale. Ainsi, un modèle peut être bien classé tout en étant fondamentalement incapable de raisonnement logique profond. Par exemple, en août 2025, GPT-5 « high » n’arrivait qu’en 3e position du classement général.
Deuxièmement, les risques d’hallucinations persistent. Malgré les correctifs revendiqués pour GPT-5.1 en septembre 2025, l’architecture sous-jacente reste vulnérable car elle génère des textes par corrélation, non par vérification causale contre un modèle du monde.
Troisièmement, les LLM échouent dans les tâches de planification nécessitant une inférence causale, comme la logistique physique ou la résolution de problèmes complexes à étapes interdépendantes. Enfin, cette limite jette un doute sérieux sur les affirmations concernant la voie vers une Intelligence Générale Artificielle basée uniquement sur l’augmentation d’échelle de ces modèles.
| Tâche nécessitant une causalité | Limite des LLM (basé sur la corrélation) | Capacité humaine (basée sur la modélisation) |
|---|---|---|
| Planifier une chaîne logistique | Peut générer un plan textuellement cohérent mais avec des incohérences physiques ou temporelles non détectées. | Peut modéliser mentalement les contraintes, les dépendances et les flux pour anticiper les problèmes. |
| Expliquer un phénomène physique | Restitue des explications trouvées dans son entraînement, sans nécessairement en comprendre les liens causaux. | Peut raisonner à partir des principes fondamentaux pour déduire ou expliquer un phénomène nouveau. |
Un débat scientifique ancien ravivé par l’ia moderne
Cette critique s’inscrit dans un débat plus large en sciences cognitives et en philosophie de l’esprit sur la nature de la compréhension sémantique.
Historiquement, l’argument de la « chambre chinoise » de John Searle opposait déjà la manipulation syntaxique des symboles à une véritable sémantique. Aujourd’hui, les benchmarks de fiabilité comme Phare LLM viennent objectiver partiellement le débat. Ils montrent que certains modèles, comme Llama 3.1 ou Gemini 1.5 Pro, résistent mieux aux hallucinations, mais cela mesure une forme de robustesse statistique, pas la présence d’une compréhension causale.
Les classements mensuels du Chatbot Arena en 2025 reflètent une course aux performances perçues par les utilisateurs, souvent biaisées par la fluidité du langage. Cela souligne l’écart entre l’évaluation subjective et la validation scientifique d’une intelligence authentique. Le débat est devenu urgent avec les critiques postérieures au lancement de GPT-5, remettant en cause le narratif d’un « raisonnement » émergent.
Le contexte et les défis de validation pour l’avenir
Cette remise en cause fondamentale intervient dans un contexte de course aux performances mesurées par des benchmarks qui évaluent principalement les capacités linguistiques de surface.
Pourtant, ces modèles en tête des classements peuvent toujours produire des hallucinations, comme le montre le benchmark Phare qui classait Llama 3.1 comme le plus « fiable ». La question centrale reste : comment valider scientifiquement une compréhension au-delà de la performance statistique ? Elle pose la question de la validation scientifique des capacités des LLM, rejoignant les préoccupations concrètes :
- Hallucinations persistantes : Malgré les annonces d’amélioration, le problème de fond lié à l’architecture demeure.
- Biais et polarisation : Le benchmark Phare évalue la résistance à la polarisation, un défi si le modèle ne fait que refléter des corrélations dans ses données.
- Absence de modélisation causale : Incapacité structurelle à intégrer des relations de cause à effet physiques.
- Benchmarks dynamiques : Les classements comme l’Arena évoluent mensuellement et dépendent des préférences subjectives des utilisateurs.
L’alerte déclenchée par Gemini 3 en décembre 2025, avec des cas d’usage ayant provoqué une « alerte rouge », illustre les risques imprévisibles de systèmes fondés sur la corrélation.
Conclusion : trois actions prioritaires pour une ia plus fiable
En résumé, une critique issue de la physique affirme que l’architecture même des LLM les empêche d’accéder à une forme de compréhension ou de raisonnement authentique. Vous devez agir maintenant pour ne pas être dupe des apparences.
Face à cela, trois actions concrètes s’imposent :
- Exiger des benchmarks causaux : Développer et privilégier des évaluations testant explicitement la modélisation des relations de cause à effet, au-delà de la simple fluidité linguistique.
- Intégrer la physique dans les données et l’architecture : Explorer des méthodes pour ancrer les modèles de langage dans des principes et données causalement structurées.
- Préférer les modèles robustes pour les applications critiques : En l’état actuel, s’appuyer sur les modèles identifiés comme les plus fiables pour minimiser les risques, tout en ayant conscience de leurs limites fondamentales.
Les gains estimés d’une telle refonte pourraient réduire significativement les erreurs de type hallucination dans des tâches complexes. Il est temps de repenser l’évaluation et le développement de l’intelligence artificielle au-delà de la simple course aux scores. Votre vigilance et votre exigence détermineront si nous construisons des outils sophistiqués ou une authentique intelligence.