Google et OpenAI se disputent âprement les premières positions de la Chatbot Arena. Ce mois-ci, huit des dix modèles les plus performants ont été conçus par l’une de ces deux entreprises. Google prend néanmoins un léger ascendant, en s’adjugeant les deux premières positions du classement grâce à la sortie de Gemini 2.0 Flash et relègue OpenAI en troisième position.
Claude, habitué à jouer les trouble-fêtes, glisse hors de la première partie de tableau, ce mois-ci, et se retrouve à la 11è place. De son côté, Yi Lightning, le modèle d’origine chinoise développé par 01.ai, se maintient dans le top 10 pour le 3è mois consécutif en s’adjugeant la 9è place, tandis que Grok, l’IA conçue par xAI, l’entreprise d’Elon Musk, recule d’une place par rapport au mois de novembre et se classe en 8è position.
Enfin, l’entreprise française Mistral, qui avait quitté le top 20 le mois dernier, n’est pas parvenue à remonter au classement et occupe la 25è place avec son modèle Mistral Large-24-11.
Les critères de classement de la Chatbot Arena
La Chatbot Arena est un classement conçu par la Large Model Systems Organisation (LMSYS). Elle évalue de manière objective et en temps réel les performances des modèles d’intelligence artificielle en s’appuyant sur les retours des utilisateurs.
Afin de classer les modèles de la manière la plus neutre possible, elle propose des duels entre deux modèles anonymisés, arbitrés par des humains. Les participants doivent choisir, selon eux, l’IA ayant le mieux répondu à la requête initiale. Ce processus permet de classer les différents modèles grâce à un score Elo.
Le système Elo, utilisé dans des domaines comme les échecs ou l’eSport, fonctionne comme une côte évolutive : lorsqu’un modèle gagne contre un adversaire avec un score Elo plus élevé, il accumule des points, tandis qu’il en perd lorsqu’il subit une défaite contre un adversaire supposément plus faible place.
Source : BDM