Ce mois-ci, Grok crée la surprise et se positionne en tête de la Chatbot Arena. Découvrez le classement complet.
La course à l’IA ne ralentit pas en 2025. Alors qu’OpenAI a déjà dévoilé ses ambitions pour le reste de l’année, avec l’arrivée imminente de GPT-4.5, suivie de celle de GPT-5, ses concurrents se multiplient et parviennent même à rivaliser avec les modèles de langage intégrés à ChatGPT. Ces différentes tendances sont étudiées en temps réel par la Chatbot Arena, qui propose un classement des modèles les plus performants. En février 2025, le leaderboard réserve quelques surprises !
Grok-3 prend la tête de la Chatbot Arena
Grok-3, le dernier modèle d’intelligence artificielle développé par xAI, a été dévoilé le 18 février 2025 lors d’une démonstration en direct menée par Elon Musk. Initialement réservé aux abonnés Premium+ de la plateforme X, Grok-3 est désormais accessible gratuitement, avec un usage limité. Si, pendant la présentation, l’IA a semblé présenter quelques lacunes, ses qualités semblent bien réelles. Ce mois-ci, Grok-3 est propulsé en tête de la Chatbot Arena, avec un score de 1 402. Il est suivi par deux versions de Gemini 2.0, tandis que ChatGPT-4o se classe en 4ᵉ position.
Toutefois, il convient de pondérer ces résultats. La Chatbot Arena repose sur des duels basés sur des prompts uniques, décidés par les utilisateurs. Il est donc probable que ces résultats ne reflètent pas l’étendue des capacités des modèles. Par exemple, GPT-4o excelle dans l’analyse d’images et de documents, et intègre un mode vocal avancé. Il se montre aussi meilleur que ses concurrents dans la recherche en ligne. Des capacités probablement sous-exploitées dans ce classement.
Les 10 modèles de langage les plus performants en février 2025
Dans le reste du tableau, l’écosystème des modèles d’IA semble fidèlement représenté. Les concurrents chinois, DeepSeek R1 et Qwen (l’IA d’Alibaba), font leur apparition, respectivement en 5ᵉ et 9ᵉ positions. Claude, en revanche, jadis habitué aux premières places, peine désormais à intégrer le Top 20, tandis que Mistral s’enfonce dans les profondeurs du classement.
Voici les 10 modèles d’IA les plus performants en février 2025, selon le leaderboard de la Chatbot Arena :
- chocolate (Early Grok-3) : 1 402 (score Elo)
- Gemini-2.0-Flash-Thinking-Exp-01-21 : 1 385
- Gemini-2.0-Pro-Exp-02-05 : 1 379
- ChatGPT-4o-latest (2025-01-29) : 1 377
- DeepSeek-R1 : 1 361
- Gemini-2.0-Flash-001 : 1 356
- o1-2024-12-17 : 1 353
- o1-preview : 1 335
- Qwen2.5-Max : 1 332
- DeepSeek-V3 : 1 317
Les critères de classement de la Chatbot Arena
La Chatbot Arena, développée par la Large Model Systems Organization (LMSYS), propose une approche comparative pour évaluer les modèles d’intelligence artificielle. Elle repose sur un système de duels où deux modèles anonymisés s’affrontent, et les utilisateurs déterminent lequel a fourni la meilleure réponse à une requête donnée. Ce processus permet d’attribuer un score Elo aux modèles et d’établir un classement dynamique basé sur leurs performances.
Le système Elo, couramment employé dans les échecs, repose sur une évaluation progressive : lorsqu’un modèle surpasse un adversaire mieux classé, il gagne des points ; en cas de défaite face à un modèle moins bien noté, il en perd. Cette méthode assure une comparaison continue et ajustée des performances des différentes IA.
Source: BDM