Un modèle d’IA d’OpenAI décroche l’or aux Olympiades internationales de maths : faut-il y croire ?

Il a résolu six problèmes mathématiques parmi les plus redoutés du monde, dans un temps limité, sans calculatrice ou aide extérieure. OpenAI vient d’annoncer qu’un de ses modèles d’IA expérimentaux vient de décrocher l’équivalent d’une médaille d’or aux Olympiades Internationales de Mathématiques (IMO) ; un niveau normalement réservé à une élite mondiale de lycéens. Mais à bien y regarder, cette « victoire » a un arrière-goût fortement amer puisque l’entreprise d’Altman n’a pas respecté les règles à la lettre.

L’IMO est une véritable institution ; une compétition qui récompense les meilleurs lycéens au monde depuis 1959 dans un domaine très exigeant : les mathématiques. Deux jours d’épreuves, six problèmes de démonstration à résoudre sans aucune aide, dans un silence quasi liturgique. Pour beaucoup, c’est le plus haut niveau atteignable avant de se voir ouvrir les portes des meilleures institutions universitaires du globe. Moins de 9 % des participants décrochent l’or chaque année. OpenAI, qui y a également participé l’an dernier, a affirmé qu’un de leur modèle serait parvenu, cette année, à les égaler.

Ce dernier n’était même pas spécialisé dans la résolution de théorèmes puisqu’OpenAI a précisé qu’il s’agissait d’un LLM standard, entraîné pour le langage, le code et la science, sans structure formelle ni moteur logique. « Ce n’était pas un système conçu pour les maths », insiste la firme. « Il a résolu les problèmes dans les contraintes classiques de l’IMO : 4 h 30, sans internet, sans calculatrice. »

Le modèle aurait produit des démonstrations intégralement en langage naturel, comme le ferait n’importe quel candidat humain. Le problème ici, c’est que plus l’on examine les conditions de cette prétendue performance, moins elle nous inspire confiance.

Quand OpenAI s’octroie l’or à elle-même

Premier point qui fait tiquer : l’autoévaluation. Contrairement à Google DeepMind ; également participante au concours ; qui a travaillé main dans la main avec l’IMO pour faire corriger ses copies par les organisateurs officiels, OpenAI a conduit son processus seule, dans son coin. Les démonstrations de leur modèle ont été notées à l’aveugle par un comité composé de trois anciens médaillés… mais sélectionnés par OpenAI elle-même. Par conséquent, on ignore complètement ce que le modèle a résolu et surtout, comment il a procédé.

Certes, OpenAI a promis de publier prochainement les preuves et les barèmes utilisés. Mais en matière de validation scientifique, a fortiori sur un sujet aussi symbolique que l’IMO, un tel geste ne remplacera pas un protocole de validation tiers. Comme l’a fait remarquer Thang Luong, chercheur chez DeepMind : « Pour ceux qui ne sont pas passés par ce processus, difficile de dire ce qu’ils ont réellement obtenu… Ils ont peut-être perdu un point et mérité seulement la médaille d’argent ».

Outre cet aspect, il y en a un autre qui agite la controverse : le non-respect de l’embargo. L’organisation de IMO avait explicitement demandé aux entreprises participantes de ne rien annoncer avant le 28 juillet. OpenAI a publié ses résultats le 20, sans avertir les autres. Noam Brown, chercheur impliqué dans le projet, s’est défendu : « Nous n’étions pas en contact avec l’IMO. À aucun moment quelqu’un ne nous a demandé d’annoncer plus tard ». Toutefois, c’est un tout autre son de cloche qui nous vient d’un coordinateur de l’IMO cité sur X : OpenAI aurait bel et bien publié avant la cérémonie de clôture, ce qui est considéré comme « impoli et inapproprié ».

Le comble de l’ironie, c’est qu’OpenAI avait été conviée deux mois plus tôt à participer à un protocole de test officiel supervisé par l’IMO, pensé spécialement pour les modèles d’IA. Celui-ci utilisait Lean, un langage formel conçu pour écrire des démonstrations mathématiques de manière entièrement vérifiable par un ordinateur (chaque étape doit être formulée selon une syntaxe logique stricte, permettant à un assistant de preuve de valider ou rejeter automatiquement le raisonnement).

Contrairement aux réponses en langage naturel, les preuves écrites en Lean ne laissent aucune place à l’ambivalence : chaque étape doit être formellement justifiée, et peut être passée au crible d’un assistant de preuve. C’est la garantie que la démonstration est valide, non pas parce qu’elle a « l’air » correcte, mais parce qu’elle respecte une syntaxe logique irréfutable.

OpenAI a choisi simplement de… décliner l’invitation : « Nous étions concentrés sur le raisonnement en langage naturel, sans les contraintes de Lean », a justifié le chercheur Noam Brown, avant de préciser que l’entreprise « n’a jamais été approchée pour une version en langage naturel » dans le cadre de ce protocole.

Nous pouvons donc en conclure qu’OpenAI a refusé le seul cadre prévu pour garantir une évaluation rigoureuse des capacités d’une IA dans un contexte olympique, avant de revendiquer, seule et sans arbitre, une médaille d’or sur un terrain qu’elle a elle-même défini. Sommes-nous censés applaudir ?

Démonstration de force ou véritable victoire ? © Pkk_John / Shutterstock

Sans contradiction, où est la vérité ?

Ce qu’a voulu démontrer OpenAI, c’est la puissance brute d’un modèle entraîné spécialement pour une compétition à forte valeur symbolique. Son coût computationnel est inconnu et il n’est certainement pas destiné à un usage grand public, dans le monde réel. La firme l’admet d’ailleurs elle-même : « Les méthodes seront conservées, mais un modèle d’un tel niveau ne sera pas mis à disposition du public avant un bon moment ». Nos confrères de Presse-citron nous informent d’ailleurs, dans cet article, que les capacités du modèle utilisé à l’IMO ne seront pas intégrées dans le futur ChatGPT-5.

Cette « victoire » à l’IMO s’apparente davantage à une démonstration technique et un coup de communication bien monté, forcément très favorable pour l’entreprise d’Altman. En refusant à la fois les évaluations indépendantes, les protocoles collectifs en amont proposés par l’IMO et en publiant les résultats à la va-vite, dire qu’elle aurait agi de bonne foi serait se satisfaire d’un simulacre de transparence. OpenAI a-t-elle véritablement prouvé qu’une de ses IA peut remporter l’IMO ? Ou simplement édifié un scénario dans lequel toute forme de contradiction est rendue impossible ?

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

Les chatbots à intelligence artificielle sont de plus en plus utilisés en 2025. Ils répondent à des questions, exécutent des tâches et s’intègrent facilement à divers usages. Qu’il s’agisse d’assistants personnels ou de solutions professionnelles, ces outils deviennent indispensables. Nous vous avons séléctionné les meilleurs chatbots IA.

Si OpenAI avait réellement souhaité démontrer la capacité de son modèle à raisonner comme un humain, il aurait fallu qu’elle accepte de jouer selon les règles de ceux qu’elle prétend égaler. Elle aura préféré, malheureusement, voulu faire bande à part, ce qui affaiblit fortement sa légitimité dans cette affaire. Attendons désormais de voir si elle tient son engagement quant à la publication des preuves et des critères de correction, afin que chacun puisse juger sur pièce. Si rien ne nous parvient, c’est que ce succès n’était possible qu’en l’absence du respect de toute règle commune.

Source : Ars Technica

What's Hot

Entre satisfaction et inquiétude : comment les revendeurs réagissent aux nouvelles mesures de l’ARCEP ?

Incident de sécurité » chez ChatGPT : OpenAI révèle avoir subi une fuite de données

Verrouillage des profils Facebook : outil de protection ou frein à la transparence numérique ?

Dématérialisation au Burkina Faso : une nouvelle plateforme rend la demande d’agrément technique accessible en un clic

Black Friday : quand tout le pays passe en mode promotions XXL

Les “ingénieurs de la rue” : au cœur du génie technologique burkinabè

Comment l’escalade des groupes de hackers russes, chinois, iraniens et nord-coréens fait trembler le monde

Le marché du smartphone rebondit, Samsung toujours au sommet

“Comment je fais pour me démarquer ?”: la face cachée de la vie des créateurs de contenu, entre passion et grosse pression

OPÉRATION CYBER-BALAYAGE 2025 : 22 INTERPELLATIONS ET PLUS DE 18 MILLIONS FCFA DE PRÉJUDICE

Entre satisfaction et inquiétude : comment les revendeurs réagissent aux nouvelles mesures de l’ARCEP ?

Quand l’Australie bannit les réseaux sociaux aux moins de 16 ans : un modèle ou une impasse ?

Créa Impact 2025 : un carrefour d’échanges pour les créateurs de contenus au Burkina Faso

Burkina Faso : Un étudiant conçoit un logiciel innovant pour optimiser la climatisation et réduire la consommation énergétique

Fasoogle : L’initiative de Romain Somé pour l’accès libre à la connaissance

Technologie sans solidarité : le vrai bug du numérique au Burkina Faso

Un nouveau scanner de documents est en préparation sur Android, voici ce qui va changer

Panique sur Gmail ? Non, l’IA de Google ne lit pas vos e-mails…

Semaine du numérique 2025 : un robot humanoïde attire l’attention et suscite la curiosité du public

Android va (enfin) mieux protéger ceux qui vivent loin des villes

𝟐𝟎ᵉ 𝐞́𝐝𝐢𝐭𝐢𝐨𝐧 𝐝𝐞 𝐥𝐚 𝐒𝐞𝐦𝐚𝐢𝐧𝐞 𝐝𝐮 𝐧𝐮𝐦𝐞́𝐫𝐢𝐪𝐮𝐞 : 𝐥𝐞 𝐆𝐡𝐚𝐧𝐚 𝐩𝐚𝐲𝐬 𝐢𝐧𝐯𝐢𝐭𝐞́ 𝐝’𝐡𝐨𝐧𝐧𝐞𝐮𝐫

Forum « 10.000 Codeurs » : Une immersion dans les métiers du numérique

DSI Digital Day : La data , la cybersécurité et l’IA au cœur des échanges

WWDC 2025: iOS 26, watchOS 26, Liquid Glass… toutes les nouveautés d’Apple

Semaine du Numérique 2025 : découverte des innovations présentées aux stands

Burkina Faso : « Le Faso Digital » marque une nouvelle ère pour l’écosystème tech national

Le Togo accueille le GRIT 2025 : la Grande Rencontre de l’Innovation Technologique pour propulser l’Afrique de l’Ouest vers l’avenir

Sénégal : le fisc paralysé par un ransomware de 6,5 milliards FCFA

Un des plus grands patrons de la tech affirme que l’IA ne va pas réduire le travail pour les humains, mais nous surcharger !

Pavel Durov lance Cocoon : Telegram veut créer une IA plus sûre et vraiment privée

ChatGPT : OpenAI sonne la fin de la récré pour la version gratuite

“Comment je fais pour me démarquer ?”: la face cachée de la vie des créateurs de contenu, entre passion et grosse pression

OPÉRATION CYBER-BALAYAGE 2025 : 22 INTERPELLATIONS ET PLUS DE 18 MILLIONS FCFA DE PRÉJUDICE

Entre satisfaction et inquiétude : comment les revendeurs réagissent aux nouvelles mesures de l’ARCEP ?

Des applis piégées sur le Play Store ont transformé des millions de téléphones en “machines à pub” : attention au Burkina Faso !

Abonnez-vous pour recevoir nos actualités.

What's Hot

Un modèle d’IA d’OpenAI décroche l’or aux Olympiades internationales de maths : faut-il y croire ?

Quand OpenAI s’octroie l’or à elle-même

Sans contradiction, où est la vérité ?

Connexes Postes