LE RAISONNEMENT EN TROMPE-L’ŒIL DES LLM
Il est des publications scientifiques qui marquent une rupture. Celle diffusée récemment par l’équipe de recherche d’Apple, sobrement intitulée The Illusion of Thinking, pourrait bien constituer un jalon de ce type. En s’intéressant à la capacité réelle des Large Reasoning Models (LRM) à résoudre des problèmes par chaînes logiques, Apple révèle un angle mort fondamental de l’intelligence artificielle dite générative : la défaillance structurelle du raisonnement au-delà d’un certain seuil de complexité.
Pour dépasser les biais bien connus des benchmarks classiques (trop souvent corrélés aux corpus d’entraînement), les chercheurs ont conçu un protocole original, fondé sur des puzzles algorithmico-logiques comme la Tour de Hanoï ou le problème du passage de rivière. Cette approche leur a permis de mesurer à la fois la performance brute des modèles et l’évolution de leur raisonnement interne au fil de la difficulté. Trois régimes de comportement se sont alors dessinés.

Sur des tâches simples, les modèles de langage standard (plus directs, plus sobres) surclassent parfois leurs cousins raisonneurs, victimes d’une propension à la surgénération : ils pensent trop, tournent à vide, et se fourvoient là où une réponse concise eût suffi. Sur des tâches de complexité moyenne, en revanche, les LRM montrent leur valeur : leur capacité à déplier un raisonnement progressif leur permet de corriger certaines erreurs, améliorant nettement leur taux de réussite. Mais c’est dans le troisième régime que s’opère la bascule : dès qu’un seuil critique de complexité est franchi, tous les modèles (raisonneurs ou non) s’effondrent brutalement, tant sur le plan de l’exactitude que de la persistance cognitive. Fait plus troublant encore, les LRM cessent même d’essayer. Alors que leur budget de jetons reste suffisant, ils réduisent leur effort, comme résignés. Cette désactivation implicite du raisonnement face à la difficulté signe une limite structurelle profonde.
LE CONSTAT DE MARCUS
Gary Marcus n’a pas tardé à s’emparer de cette étude, dont les conclusions corroborent (voire amplifient) ses mises en garde répétées contre l’illusion d’intelligence prêtée aux grands modèles. Depuis plus de 25 ans, il dénonce l’incapacité chronique des réseaux neuronaux à généraliser au-delà de leur domaine d’entraînement. L’étude d’Apple, selon lui, ne fait que confirmer ce constat : les LLM, si impressionnants dans certaines tâches bien bornées, échouent dès qu’ils sont confrontés à des situations inédites, où l’apprentissage statistique cède la place à la nécessité d’un raisonnement abstrait, symbolique, déductif.
Ce que Marcus appelle un « coup fatal » tient au fait que, même guidés, même nourris de l’algorithme exact à appliquer, les modèles n’intègrent pas ces règles pour structurer leur réponse. L’échec est total. Le raisonnement qui émerge (lorsqu’il émerge) reste donc un produit de surface, une narration plausible, mais dépourvue de fondation logique. Et cette narration s’interrompt dès que le cadre de la tâche dépasse les patrons appris. En d’autres termes : les LLM n’ont pas de moteur de raisonnement, seulement une chambre d’écho syntaxique. Les résultats observés renforcent plusieurs critiques formulées de longue date par Gary Marcus, sans pour autant clore le débat sur les trajectoires futures de l’intelligence artificielle.
UNE CONVERGENCE CRITIQUE
Apple, à travers son protocole expérimental rigoureux, met en évidence un phénomène que Marcus n’a cessé de souligner : l’augmentation de la taille des modèles ou la complexification de leurs chaînes d’inférence n’ouvre pas la voie vers une intelligence générale. Le progrès est linéaire jusqu’à un point, puis c’est le gouffre. Ce gouffre n’est pas seulement quantitatif. Il semble révéler une limite plus profonde que la seule question de l’échelle.
À complexité croissante, le système ne s’adapte pas : il décroît. Et lorsque les chercheurs introduisent une aide explicite (l’algorithme humainement valide), l’échec se répète. Cela signifie que l’incorporation de règles externes, pourtant essentielles à tout raisonnement logique, ne se traduit pas en amélioration des performances. Il n’y a pas de pont, semble-t-il, entre les représentations statistiques apprises et les principes computationnels formels. Cette fracture révèle ce que Marcus diagnostique comme l’incapacité des architectures neuronales à simuler des structures mentales généralisables. Elles restent confinées à leur domaine d’apprentissage, incapables de produire des raisonnements robustes hors distribution.