Après avoir utilisé le jeu Pokémon, les scientifiques se tournent désormais vers Super Mario Bros pour comparer et évaluer les modèles d’IA
Des chercheurs du Hao AI Lab de l’Université de Californie à San Diego ont intégré l’intelligence artificielle dans les jeux Super Mario Bros pour que les modèles de langage puissent jouer en direct au célèbre jeu vidéo. Leur but ? Évaluer l’IA dans des situations où l’adaptabilité et la résolution de problèmes sont primordiales. Ce test a longtemps été réalisé sur le jeu Pokémon, qui était réputé pour être une référence difficile pour l’IA.
Comment le test d’IA sur Super Mario s’est-il déroulé ?
L’expérience n’a pas été réalisée sur le jeu original de 1985 Super Mario Bros., mais sur un émulateur qui incluait GamingAgent via GitHub. Cette configuration a permis de donner des instructions de base et des images du jeu à l’IA, qui a ensuite pu générer des entrées dans le code Python pour contrôler Mario.
Les modèles de langage devaient ainsi apprendre à jouer et planifier des manœuvres complexes ou des stratégies de jeu pour aller le plus loin possible dans les niveaux. GamingAgent, qui a été développé en interne par Hao IA Lab, a aussi fourni des instructions à l’IA comme : « Quand un obstacle ou un ennemi approche, sautez pour l’esquiver. »
Quelle IA est la plus performante sur Super Mario ?
Comme on peut le voir dans la vidéo des résultats du test (voir ci-dessus), aucun modèle de langage ne parvient à terminer le premier niveau de Super Mario Bros. avec ses trois vies. Cependant, certains obtiennent des performances impressionnantes, tandis que d’autres peinent à avancer de quelques pixels.
Le nouveau modèle d’Anthropic, Claude 3.7 Sonnet, est celui qui réalise la meilleure performance en échouant à seulement quelques encablures de la fin du niveau. Il arrive devant Claude 3.5. En revanche, Gemini 1.5-Pro de Google ou GPT-4o d’OpenAI, eux, ont eu de grosses difficultés à avancer dans le monde virtuel du célèbre plombier. Le Hao IA Lab affirme que les modèles de raisonnement, comme o1 d’OpenAI, qui procèdent étape par étape pour trouver la meilleure solution, manquent d’anticipation et de spontanéité. Selon eux, ces modèles obtiennent de moins bons résultats que des IA « non raisonnées », comme Claude 3.7, qui se rapproche de la pensée d’un humain.
Source : BDM