Une IA autonome, XBOW, a pris la tête du classement étatsunien sur HackerOne. Simple prouesse technique ou tournant majeur pour la cybersécurité ? L’avenir s’écrit peut-être déjà.
L’IA est-elle un meilleur pentester que l’humain ? C’est une question qu’on posait il y a encore quelque temps sur le ton de la provocation. Elle semble aujourd’hui plus sérieuse que jamais. Sur HackerOne, l’une des principales plateformes de bug bounty au monde, un agent autonome baptisé XBOW a récemment atteint la première place du classement américain. Une IA, seule, face à des milliers de chercheurs en sécurité, parfois très expérimentés. Et qui s’empare de la plus haute marche du podium.
L’information est passée presque inaperçue, éclipsée par le flux habituel de l’actu tech. Pourtant, ce que représente XBOW est majeur. Non pas une simple automatisation du pentest, pratique déjà répandue, mais une IA qui enchaîne les découvertes de vulnérabilités critiques, en toute autonomie, sur des cibles réelles, en conditions réelles. Et qui, selon ses créateurs, pourrait bientôt proposer une couverture de sécurité continue, en temps réel, tout au long du cycle de développement d’un logiciel.
Alors, faut-il s’inquiéter ou se réjouir ? Est-ce le signe d’un progrès spectaculaire dans la cybersécurité défensive ? Que signifie vraiment cette première place d’une IA sur HackerOne ? Et surtout, les humains sont-ils en train de se faire dépasser… ou simplement épauler ?
Comment fonctionne une IA comme XBOW et d’où vient-elle ?
Qu’est-ce qui se cache derrière XBOW ? Cet acronyme révèle une IA conçue pour une seule mission : débusquer des failles de sécurité dans des applications web. Mais contrairement aux outils automatisés classiques (scanners de vulnérabilités ou scripts de fuzzing), XBOW agit du début à la fin de sa mission comme un vrai pentester. Elle inspecte, teste, tente d’exploiter, vérifie, puis rédige un rapport structuré. Le tout, sans supervision humaine.
Un pentester IA développé par des anciens de GitHub
XBOW a été développée par une équipe d’anciens ingénieurs de GitHub, spécialisée dans la sécurité offensive. À sa création, l’IA n’avait rien d’une experte : elle a d’abord été entraînée sur des environnements fermés, à la manière d’un élève en cyber. Des exercices « capture the flag » sur mesure, des benchmarks maison conçus pour éviter le surapprentissage, des applications open source où chercher des failles zero-days… Rien d’exceptionnel, juste une méthode patiente, précise et itérative. Avec l’ambition claire d’aller plus loin que tous les outils existants.
Découvrir des bugs dans des benchmarks structurés et des projets open source était un excellent point de départ. Cependant, rien ne peut vraiment vous préparer à l’immense diversité des environnements du monde réel (…) Pour combler cette lacune, nous avons commencé à nourrir XBOW des programmes de bug bounty publics et privés hébergés sur HackerOne, explique l’équipe derrière XBOW.
Le fonctionnement de XBOW repose sur une approche dite « agentique ». Une suite d’agents IA autonomes, chacun responsable d’une tâche précise, se coordonnent dans une logique de pentest complet. L’un cartographie la surface d’attaque, un autre tente des requêtes spécifiques, un troisième évalue les réponses, un autre encore vérifie si la faille est réelle… jusqu’à produire une preuve exploitable et un rapport. Tout se fait à grande échelle. En effet, XBOW peut analyser des milliers de cibles en parallèle et faire, en quelques heures, ce qu’un humain mettrait beaucoup plus de temps à accomplir.
XBOW déployée sur HackerOne, plateforme de référence du bug bounty
Pour éviter de signaler n’importe quoi, les créateurs de XBOW ont intégré un système de validation autonome. Chaque rapport est d’abord passé au crible d’un validateur, basé sur un modèle de langage ou un script, qui juge de la pertinence du bug détecté. En cas de doute, le signalement est écarté. Cela permet de maintenir un taux de faux positifs faible, condition sine qua non pour survivre sur une plateforme comme HackerOne (spécialisée dans le bug bounty), où chaque rapport est passé au crible par des équipes de sécurité.
Nous avons appliqué à XBOW le même traitement que pour n’importe quel chercheur externe : aucun raccourci, aucune connaissance interne… Juste XBOW, fonctionnant de manière autonome.
Lorsque XBOW a été déployée sur HackerOne, ce n’était pas dans un programme test ou avec un passe-droit. L’IA a été soumise aux mêmes règles que n’importe quel chercheur ou chercheuse en sécurité, avec les mêmes contraintes. À savoir, un accès black-box (aucune connaissance du code source), aucune interaction privilégiée et une file d’attente, comme tout le monde. Au final, XBOW est non seulement parvenue à faire valider ses rapports, mais à le faire en quantité et en qualité suffisantes pour grimper dans le classement (ou leaderboard) sur HackerOne.
XBOW : des performances impressionnantes, qu’il faut savoir nuancer
Quand l’IA s’empare de la première place du leaderboard sur HackerOne
Sur HackerOne, le leaderboard du bug bounty ne repose pas sur des promesses mais sur des faits. Chaque vulnérabilité signalée est évaluée, classée, validée ou rejetée. Et ce que XBOW a accompli dans cet écosystème est difficile à ignorer : plus de 1 000 rapports soumis en quelques mois, dont 54 vulnérabilités critiques, 242 graves, 524 moyennes et 65 faibles. 130 ont déjà été corrigées, quand plus de 300 sont encore en cours de traitement. Ainsi, en juin 2025, XBOW est devenue numéro 1 du classement américain de la plateforme.

Un exploit en apparence technique, mais pas seulement. La performance de XBOW ne tient pas uniquement à sa capacité à envoyer beaucoup de rapports, mais à leur taux de validité. Selon TechRepublic, 132 des vulnérabilités soumises ont été corrigées par les propriétaires des logiciels testés. Et surtout, elles l’ont été dans des programmes accessibles à tous, c’est-à-dire sans accès privilégié, sans brief, sans traitement de faveur. XBOW a donc « joué le jeu » de la cybersécurité participative et produit des résultats jugés suffisamment solides pour être traités et corrigés, mais également récompensés.
L’IA plus forte que l’humain pour le pentesting ?
Mais ce succès appelle une question plus large : est-ce qu’une IA peut aujourd’hui rivaliser avec un pentester humain ? Et si oui, à quelles conditions ? Sur certains points, l’IA semble avoir clairement l’avantage. Elle est rapide, car capable de boucler un pentest complet en quelques heures. Elle est méthodique, car n’est pas distraite, n’oublie pas, n’a pas de biais. Elle est applicable à l’échelle, car on peut la déployer sur des centaines de cibles en parallèle, sans coût humain supplémentaire. Et surtout, elle ne dort pas !
Mais dans le détail, les choses sont plus nuancées. D’abord, parce que XBOW n’opère pas sur les programmes les plus fermés ou les plus rémunérateurs. Son classement, aussi impressionnant soit-il, s’est en grande partie construit sur des programmes ouverts, où la concurrence est moindre et les récompenses souvent symboliques. Ensuite, parce que certaines vulnérabilités signalées par l’IA nécessitent encore une relecture humaine. Toutes ne sont pas exploitables en l’état. Et enfin, parce que la capacité à comprendre le contexte d’une application, à dialoguer avec les développeurs, à proposer une remédiation adaptée reste pour l’instant du ressort de l’humain.
Autrement dit, XBOW excelle dans l’exécution à grande vitesse de scénarios bien identifiés. Elle trouve. Elle documente. Elle transmet. Mais elle ne remplace pas (encore) l’intuition, l’inventivité ou la vision d’ensemble d’un bon ou d’une bonne pentester. Ce qu’elle bouscule, en revanche, c’est le temps. Ce n’est plus vraiment une question de « mieux ou moins bien ». C’est une question de volume, de cadence. Et dans cette course contre la montre qu’est la cybersécurité, l’IA semble avoir une longueur d’avance sur ce point.
Vers une nouvelle manière de penser la cybersécurité ?
Nouveau « jalon », fascination et scepticisme
L’arrivée d’une IA comme XBOW dans le monde encore très humain du bug bounty n’a pas laissé indifférent. Sur certains forums spécialisés, les commentaires oscillent entre fascination et scepticisme. Certains y voient un tournant historique, comme TechRepublic qui parle d’un nouveau « jalon ». D’autres tempèrent. La majorité des rapports ont été soumis dans des programmes peu rémunérateurs, parfois boudés par les chercheurs humains. Difficile, dans ces conditions, de prouver la radicale supériorité de l’IA. XBOW est rapide, mais joue-t-elle dans la même division que les top hackers indépendants ? Pas encore.
La première place sur HackerOne n’est pas si importante, dans la mesure où c’est un jeu économique… Les missions les moins rémunératrices n’attirent pas les top talents, estime un utilisateur sur le forum Hacker News.
D’autres voix soulignent l’aspect fondamentalement collaboratif de cette avancée. Car XBOW ne travaille pas contre les humains. Elle travaille avec eux ou, du moins, à leur côté. Elle ne dérobe pas des primes ni des classements, elle détecte des failles que d’autres n’ont pas vues, dans des environnements où elles auraient pu rester ouvertes. Alors que les cyberattaques sont de plus en plus automatisées, cette IA n’est pas une anomalie, et peut-être perçue comme un début de réponse. Une forme de contrepoids algorithmique à une menace algorithmique.
L’IA n’est qu’un outil de plus pour nous aider à mieux travailler. Elle n’arrive pas toujours à détecter des vulnérabilités que les humains peuvent trouver, se rassure un utilisateur de Reddit.
De nouveaux enjeux pour la cybersécurité offensive ?
Les enjeux, eux, dépassent le classement HackerOne. XBOW préfigure une nouvelle manière de penser la sécurité, non plus comme une suite de tests ponctuels, mais comme un processus continu, intégré dans les cycles de développement. Ses créateurs ne s’en cachent pas. L’objectif est d’intégrer l’IA directement dans les workflows DevSecOps, d’assurer une couverture permanente et d’éviter que des vulnérabilités ne survivent au sprint suivant.
Ce modèle soulève des questions. Techniques, bien sûr : quelle transparence sur les méthodes d’analyse ? Quelle maîtrise des faux positifs à l’échelle industrielle ? Mais aussi éthiques : qui est responsable en cas d’erreur ? Peut-on laisser une IA fouiller en autonomie dans des systèmes réels ? Jusqu’où peut-elle aller dans l’exploitation d’une faille, sans supervision humaine ? Le passage d’une automatisation contrôlée à une IA offensive autonome n’est pas anodin. Il oblige à repenser les garde-fous, les protocoles et la responsabilité.
Les perspectives, elles, sont claires. XBOW prépare l’ouverture de ses benchmarks, pour que d’autres IA puissent s’évaluer dans les mêmes conditions. Elle s’ouvre à des collaborations, des usages commerciaux, des intégrations dans les chaînes de sécurité logicielle. Elle ne sera pas la seule, ni la dernière. D’autres outils similaires émergent, portés par des levées de fonds massives. Ce qui semblait hier encore relever de la science-fiction devient un enjeu concret de cybersécurité contemporaine.
Source: BDM