Super Mario Bros. : le nouvel outil pour évaluer les modèles d’IA

Après avoir utilisé le jeu Pokémon, les scientifiques se tournent désormais vers Super Mario Bros pour comparer et évaluer les modèles d’IA

Des chercheurs du Hao AI Lab de l’Université de Californie à San Diego ont intégré l’intelligence artificielle dans les jeux Super Mario Bros pour que les modèles de langage puissent jouer en direct au célèbre jeu vidéo. Leur but ? Évaluer l’IA dans des situations où l’adaptabilité et la résolution de problèmes sont primordiales. Ce test a longtemps été réalisé sur le jeu Pokémon, qui était réputé pour être une référence difficile pour l’IA.

Comment le test d’IA sur Super Mario s’est-il déroulé ?

L’expérience n’a pas été réalisée sur le jeu original de 1985 Super Mario Bros., mais sur un émulateur qui incluait GamingAgent via GitHub. Cette configuration a permis de donner des instructions de base et des images du jeu à l’IA, qui a ensuite pu générer des entrées dans le code Python pour contrôler Mario.

Les modèles de langage devaient ainsi apprendre à jouer et planifier des manœuvres complexes ou des stratégies de jeu pour aller le plus loin possible dans les niveaux. GamingAgent, qui a été développé en interne par Hao IA Lab, a aussi fourni des instructions à l’IA comme : « Quand un obstacle ou un ennemi approche, sautez pour l’esquiver. »

Quelle IA est la plus performante sur Super Mario ?

Comme on peut le voir dans la vidéo des résultats du test (voir ci-dessus), aucun modèle de langage ne parvient à terminer le premier niveau de Super Mario Bros. avec ses trois vies. Cependant, certains obtiennent des performances impressionnantes, tandis que d’autres peinent à avancer de quelques pixels.

Le nouveau modèle d’Anthropic, Claude 3.7 Sonnet, est celui qui réalise la meilleure performance en échouant à seulement quelques encablures de la fin du niveau. Il arrive devant Claude 3.5. En revanche, Gemini 1.5-Pro de Google ou GPT-4o d’OpenAI, eux, ont eu de grosses difficultés à avancer dans le monde virtuel du célèbre plombier. Le Hao IA Lab affirme que les modèles de raisonnement, comme o1 d’OpenAI, qui procèdent étape par étape pour trouver la meilleure solution, manquent d’anticipation et de spontanéité. Selon eux, ces modèles obtiennent de moins bons résultats que des IA « non raisonnées », comme Claude 3.7, qui se rapproche de la pensée d’un humain.

Source : BDM

What's Hot

Coupe du Monde 2026 : nous avons demandé à 5 IA de prédire le vainqueur et le meilleur buteur, voici leur verdict

Verrouillage des profils Facebook : outil de protection ou frein à la transparence numérique ?

Ecrans et santé : à quoi s’expose-t-on ?

HDMI 2.2, 2.1, 2.0, 1.4 : tout comprendre aux normes et câbles HDMI

Femmes et cyberviolences : un état des lieux documenté, genré, et difficile à ignorer

Personnalité Tech de l’Année 2025: Aminata Zerbo/Sabane, ou l’art de bâtir l’État numérique dans l’excellence

Les 10 plus gros ratés technologiques de 2025

Black Friday : quand tout le pays passe en mode promotions XXL

Coupe du Monde 2026 : nous avons demandé à 5 IA de prédire le vainqueur et le meilleur buteur, voici leur verdict

Entre épopées légendaires et gameplay rafraîchissant, notre sélection de jeux vidéo de football pour vivre la Coupe du monde 2026 autrement, manette en main

L’expiration d’un outil clé du renseignement américain fait craindre pour la sécurité de la Coupe du monde 2026

Trop grosses et lourdes pour se garer : le problème inattendu des voitures électriques qui agace la Chine

Ouagadougou a accueilli un séminaire international sur l’intelligence artificielle et la transformation digitale

Créa Impact 2025 : un carrefour d’échanges pour les créateurs de contenus au Burkina Faso

Burkina Faso : Un étudiant conçoit un logiciel innovant pour optimiser la climatisation et réduire la consommation énergétique

Fasoogle : L’initiative de Romain Somé pour l’accès libre à la connaissance

Ouagadougou a accueilli un séminaire international sur l’intelligence artificielle et la transformation digitale

Meta (Facebook) va fermer Messenger.com

UNET : Une Plateforme d’Innovation qui Séduit les Jeunes Burkinabè, retour sur son Lancement à Ouagadougou

CAN 2025 au Maroc : quand football rime avec innovation technologique

𝟐𝟎ᵉ 𝐞́𝐝𝐢𝐭𝐢𝐨𝐧 𝐝𝐞 𝐥𝐚 𝐒𝐞𝐦𝐚𝐢𝐧𝐞 𝐝𝐮 𝐧𝐮𝐦𝐞́𝐫𝐢𝐪𝐮𝐞 : 𝐥𝐞 𝐆𝐡𝐚𝐧𝐚 𝐩𝐚𝐲𝐬 𝐢𝐧𝐯𝐢𝐭𝐞́ 𝐝’𝐡𝐨𝐧𝐧𝐞𝐮𝐫

Forum « 10.000 Codeurs » : Une immersion dans les métiers du numérique

DSI Digital Day : La data , la cybersécurité et l’IA au cœur des échanges

WWDC 2025: iOS 26, watchOS 26, Liquid Glass… toutes les nouveautés d’Apple

Vérification d’identité en ligne : entre sécurité numérique et risques invisibles

UNET : Une Plateforme d’Innovation qui Séduit les Jeunes Burkinabè, retour sur son Lancement à Ouagadougou

Semaine du Numérique 2025 : découverte des innovations présentées aux stands

Burkina Faso : « Le Faso Digital » marque une nouvelle ère pour l’écosystème tech national

Ouagadougou a accueilli un séminaire international sur l’intelligence artificielle et la transformation digitale

Le conflit au Moyen Orient va dégénérer en cyberattaques alerte le Canada

Cette faille critique de Chrome est exploitée par des pirates, Google déploie une mise à jour d’urgence

Coupe du Monde 2026 : nous avons demandé à 5 IA de prédire le vainqueur et le meilleur buteur, voici leur verdict

Entre épopées légendaires et gameplay rafraîchissant, notre sélection de jeux vidéo de football pour vivre la Coupe du monde 2026 autrement, manette en main

L’expiration d’un outil clé du renseignement américain fait craindre pour la sécurité de la Coupe du monde 2026

Trop grosses et lourdes pour se garer : le problème inattendu des voitures électriques qui agace la Chine

Abonnez-vous pour recevoir nos actualités.

What's Hot

Super Mario Bros. : le nouvel outil pour évaluer les modèles d’IA

Connexes Postes