Les mathématiques au secours du trou d'air de l'IA
Les limites des modèles de langage utilisés par l'intelligence artificielle apparaissent. Des pistes de progrès existent mais nécessitent d'importants travaux de mathématiques fondamentales. C'est une occasion pour la France, qui excelle en la matière.
Il y a quelques jours, un grand quotidien du soir titrait « Nvidia, premiers doutes sur l'intelligence artificielle… » (« Le Monde », édition du 20 août 2024). Quel changement d'humeur par rapport à il y a seulement vingt-quatre mois, lorsque l'avènement de ChatGPT-3.5 avait tellement ébloui l'ensemble de l'humanité que les prédictions les plus ambitieuses semblaient à portée de main !
Il est vrai que les LLM (larges modèles de langage) et les « transformers » - les technologies sous-jacentes - ont promu une approche tellement révolutionnaire qu'ils ont été, pour des milliers de chercheurs et d'ingénieurs, la voie royale du développement de l'IA.
Sens commun
Or, plus le temps passe, plus il devient évident qu'ils sont imparfaits et particulièrement difficiles à contrôler pour la simple raison qu'ils manquent totalement de sens commun. Les LLM sont ainsi des modèles « connectivistes » dont les réponses reposent sur la plus grande probabilité de parvenir à choisir la séquence de mots qui suit. Ils mettent en oeuvre une approche, certes spectaculaire, mais dont les capacités de contrôle restent structurellement limitées.
Chacun a pu en faire l'expérience : lorsque ces modèles répondent à côté, ils le font avec un aplomb tel qu'on pourrait les suspecter d'être victimes d'un syndrome de mythomanie avancée et difficile à traiter. Nul ne songerait à confier à ce type de technologies la gestion de ses comptes ou la conduite de sa voiture. Si les modèles génératifs restent extrêmement populaires, c'est plus pour leurs capacités créatives qu'ils perdureront : leur « côté poète » plus que leur « côté mathématicien ».
Les grandes entreprises technologiques ont depuis longtemps fait le constat qu'il est nécessaire de prendre d'autres voies. De nombreuses approches (IA symbolique neuronale, renforcement…) sont explorées. Mais là où les LLM donnaient rapidement des résultats spectaculaires, ces approches mêlant plusieurs technologies (dont une partie reste des LLM) imposent d'affronter hésitations et échecs.
La notion d'agents reste néanmoins privilégiée : elle consiste essentiellement à disposer d'entités spécialisées, sélectionnées en fonction de la tâche à effectuer. L'objectif n'est plus de deviner ce que pourrait être le mot qui vient mais de produire un résultat qui concourt à progresser dans la résolution d'une tâche, ce qui est très différent.
L'inconvénient pour les chercheurs, c'est que l'on revient en partie au monde d'avant, où il faut théoriquement une très grande quantité de modèles spécialisés pour affronter la complexité du réel. De surcroît, le choix même du modèle à employer en fonction du problème soulevé est tout sauf trivial à définir.
Au fur et à mesure que les travaux avancent apparaît la nécessité de reprendre des travaux en mathématiques fondamentales, où l'on peut à la fois identifier des invariants (une maison, un calcul, un ami…) et une infinité de façons de les mettre en oeuvre.
Désordre
Il est intéressant d'observer que ces enjeux sont le champ même des mathématiques topologiques et précisément l'objet du travail du mathématicien Alexander Grothendieck, dont les « topos » visent à créer de la méthode dans l'apparent désordre pour potentiellement reproduire des modèles neuronaux. Pour l'instant, il semble que les grandes entreprises digitales n'abordent qu'avec circonspection l'usage des topos pour résoudre leurs enjeux de création d'IA puissantes et fiables.
Les travaux les plus ambitieux semblent plus relever de la recherche académique (MIT, Oxford, Stanford) que d'entreprises. Il y a là un sujet d'excitation pour les chercheurs français, dont la réussite dans le champ de l'IA est largement due à leur excellence mathématique, et aussi au fait que Grothendieck (formé par Jean Dieudonné, issu de l'université de Montpellier et de l'Institut des hautes études scientifiques de Bures-sur-Yvette) est l'un des leurs.