Passer au contenu

L’ILLUSION DU RAISONNEMENT : UNE LIMITE STRUCTURELLE DES MODÈLES DE LANGAGE RÉVÉLÉE PAR APPLE ET GARY MARCUS

L’étude d’Apple et les critiques formulées par Gary Marcus relancent le débat sur les limites du raisonnement artificiel. Passé un certain seuil de complexité, les modèles de langage montrent des fragilités inattendues. Une remise en question du récit de l’IA généraliste.

Personne marchant dans un labyrinthe de pierres au bord de l’océan, illustration des limites du raisonnement des modèles de langage et de la complexité cognitive.
Au cœur d’un labyrinthe ouvert sur l’océan, une silhouette avance parmi les détours. Image d’une quête du sens qui rappelle les limites du raisonnement lorsqu’il se confronte à la complexité.

LE RAISONNEMENT EN TROMPE-L’ŒIL DES LLM

Il est des publications scientifiques qui marquent une rupture. Celle diffusée récemment par l’équipe de recherche d’Apple, sobrement intitulée The Illusion of Thinking, pourrait bien constituer un jalon de ce type. En s’intéressant à la capacité réelle des Large Reasoning Models (LRM) à résoudre des problèmes par chaînes logiques, Apple révèle un angle mort fondamental de l’intelligence artificielle dite générative : la défaillance structurelle du raisonnement au-delà d’un certain seuil de complexité.

Pour dépasser les biais bien connus des benchmarks classiques (trop souvent corrélés aux corpus d’entraînement), les chercheurs ont conçu un protocole original, fondé sur des puzzles algorithmico-logiques comme la Tour de Hanoï ou le problème du passage de rivière. Cette approche leur a permis de mesurer à la fois la performance brute des modèles et l’évolution de leur raisonnement interne au fil de la difficulté. Trois régimes de comportement se sont alors dessinés.

Sur des tâches simples, les modèles de langage standard (plus directs, plus sobres) surclassent parfois leurs cousins raisonneurs, victimes d’une propension à la surgénération : ils pensent trop, tournent à vide, et se fourvoient là où une réponse concise eût suffi. Sur des tâches de complexité moyenne, en revanche, les LRM montrent leur valeur : leur capacité à déplier un raisonnement progressif leur permet de corriger certaines erreurs, améliorant nettement leur taux de réussite. Mais c’est dans le troisième régime que s’opère la bascule : dès qu’un seuil critique de complexité est franchi, tous les modèles (raisonneurs ou non) s’effondrent brutalement, tant sur le plan de l’exactitude que de la persistance cognitive. Fait plus troublant encore, les LRM cessent même d’essayer. Alors que leur budget de jetons reste suffisant, ils réduisent leur effort, comme résignés. Cette désactivation implicite du raisonnement face à la difficulté signe une limite structurelle profonde.

LE CONSTAT DE MARCUS 

Gary Marcus n’a pas tardé à s’emparer de cette étude, dont les conclusions corroborent (voire amplifient) ses mises en garde répétées contre l’illusion d’intelligence prêtée aux grands modèles. Depuis plus de 25 ans, il dénonce l’incapacité chronique des réseaux neuronaux à généraliser au-delà de leur domaine d’entraînement. L’étude d’Apple, selon lui, ne fait que confirmer ce constat : les LLM, si impressionnants dans certaines tâches bien bornées, échouent dès qu’ils sont confrontés à des situations inédites, où l’apprentissage statistique cède la place à la nécessité d’un raisonnement abstrait, symbolique, déductif.

Ce que Marcus appelle un « coup fatal » tient au fait que, même guidés, même nourris de l’algorithme exact à appliquer, les modèles n’intègrent pas ces règles pour structurer leur réponse. L’échec est total. Le raisonnement qui émerge (lorsqu’il émerge) reste donc un produit de surface, une narration plausible, mais dépourvue de fondation logique. Et cette narration s’interrompt dès que le cadre de la tâche dépasse les patrons appris. En d’autres termes : les LLM n’ont pas de moteur de raisonnement, seulement une chambre d’écho syntaxique. Les résultats observés renforcent plusieurs critiques formulées de longue date par Gary Marcus, sans pour autant clore le débat sur les trajectoires futures de l’intelligence artificielle.

UNE CONVERGENCE CRITIQUE

Apple, à travers son protocole expérimental rigoureux, met en évidence un phénomène que Marcus n’a cessé de souligner : l’augmentation de la taille des modèles ou la complexification de leurs chaînes d’inférence n’ouvre pas la voie vers une intelligence générale. Le progrès est linéaire jusqu’à un point, puis c’est le gouffre. Ce gouffre n’est pas seulement quantitatif. Il semble révéler une limite plus profonde que la seule question de l’échelle.

À complexité croissante, le système ne s’adapte pas : il décroît. Et lorsque les chercheurs introduisent une aide explicite (l’algorithme humainement valide), l’échec se répète. Cela signifie que l’incorporation de règles externes, pourtant essentielles à tout raisonnement logique, ne se traduit pas en amélioration des performances. Il n’y a pas de pont, semble-t-il, entre les représentations statistiques apprises et les principes computationnels formels. Cette fracture révèle ce que Marcus diagnostique comme l’incapacité des architectures neuronales à simuler des structures mentales généralisables. Elles restent confinées à leur domaine d’apprentissage, incapables de produire des raisonnements robustes hors distribution.