Claude Mythos : drôle de nom pour une IA qui fait trembler les agences de cybersécurité

Claude Mythos


TL;DR

Le 26 mars 2026, une erreur de configuration chez Anthropic expose 3 000 fichiers internes, révélant « Claude Mythos » — un modèle d’IA que l’entreprise elle-même juge trop dangereux pour être publié. Les actions de cybersécurité dévissent en Bourse. Ce n’est pas un bug de communication. C’est peut-être un tournant.


Claude Mythos : quand Anthropic lâche accidentellement la bombe qu’elle retenait

Il y a des fuites qui font du bruit. Et il y a celles qui font trembler les marchés financiers, affolent les chercheurs en sécurité et forcent le silence officiel d’une des entreprises d’IA les plus discrètes de la planète. Le 26 mars 2026, Anthropic a involontairement offert au monde un aperçu de ce qu’elle construisait en coulisses — et visiblement, elle aurait préféré garder ça pour elle encore un moment.


Une erreur humaine aux conséquences très non humaines

Un CMS mal configuré, 3 000 fichiers, et Fortune en première ligne

Tout commence par ce que l’industrie appelle pudiquement une « erreur de configuration ». En l’occurrence : des fichiers internes d’Anthropic rendus publics par défaut sur leur système de gestion de contenu, sans authentification requise, accessibles via une simple recherche. Brouillons d’articles de blog, documents internes, notes de lancement — environ 3 000 ressources non publiées exposées à la vue de tous.

C’est Roy Paz, chercheur chez LayerX Security, et Alexandre Pauwels, de l’Université de Cambridge, qui tombent dessus en premiers. Fortune les contacte, consulte les documents jeudi, publie l’exclusivité. Le vendredi matin, Anthropic verrouille l’accès. Trop tard.

Ce que les documents révèlent — et ce qu’Anthropic a confirmé

Parmi les fichiers exposés : un brouillon de billet de blog décrivant un modèle encore inconnu du public, nom de code Claude Mythos, sommet d’une nouvelle gamme baptisée « Capybara » — un niveau hiérarchique au-dessus des modèles Opus actuels, décrits en interne comme « de loin le modèle d’IA le plus puissant que nous ayons jamais développé ».

Anthropic n’a pas démenti. Un porte-parole a confirmé que l’entreprise « développe un modèle polyvalent avec des avancées significatives en matière de raisonnement, de programmation et de cybersécurité » et qu’elle « prend le temps de réfléchir à la manière de le publier ». Traduction corporate : ils ont un problème, et ils savent que c’en est un.


Capybara, Mythos et la fin de l’ère Opus

Un « saut qualitatif » — ces mots qu’on ne dit pas à la légère

Les documents internes utilisent l’expression step change — un changement de niveau, pas d’amplitude. Ce n’est pas la même chose que « meilleur ». C’est : une catégorie différente. Selon les brouillons, Claude Mythos surpasse Claude Opus 4.6 — pourtant déjà leader sur Terminal-Bench 2.0 avec 65,4 % et sur SWE-bench avec 80,8 % — dans les domaines du raisonnement académique, de la génération de code complexe, du débogage et des flux d’agents autonomes.

Pas de chiffres précis fuités pour Mythos. Mais les termes employés — dramatically higher, nettement supérieur — ne laissent pas beaucoup de place à l’interprétation.

Et par rapport à GPT-5 ?

La question que tout le monde pose, André Gentit chez DeepDive le premier : où se situe Mythos face à GPT-5 et ses variantes successives ? La réponse honnête : on ne sait pas encore. Ce qu’on sait, c’est qu’Opus 4.6 surpassait déjà GPT-5.3-Codex sur Terminal-Bench 2.0. Si Mythos représente un nouveau palier au-dessus d’Opus, les projections sont vertigineuses — mais restent des projections jusqu’aux benchmarks officiels.


La cybersécurité : là où ça devient vraiment inconfortable

Le modèle qui « devance largement tout autre IA en capacités cybernétiques »

C’est la phrase qui a tout déclenché. Les documents internes d’Anthropic décrivent Claude Mythos comme capable d’identifier et d’exploiter des vulnérabilités zero-day, de générer des backdoors persistants, d’orchestrer des attaques multi-étapes à une vitesse qui « surpasse largement les efforts des défenseurs ». L’entreprise écrit elle-même qu’il « annonce une vague imminente de modèles capables d’exploiter des vulnérabilités d’une manière qui surpasse largement les efforts des défenseurs ».

Pour être clair : Anthropic a construit un outil dont elle admet publiquement qu’il pourrait être plus efficace pour attaquer que pour défendre. Et elle le retient. Par choix.

Pourquoi Anthropic refuse de publier son propre modèle

La décision est inédite dans l’industrie. Un lab qui développe un modèle, le juge trop dangereux pour une diffusion large, et retarde sa sortie publique au profit d’un accès anticipé restreint à des équipes de cyberdéfense — pour leur donner, selon le brouillon, « une longueur d’avance avant la vague d’exploits pilotés par l’IA ».

Ce n’est pas de la communication. Des tests internes avaient déjà montré que Claude pouvait générer du malware à échelle industrielle en moins de huit heures. Des acteurs étatiques — dont des groupes liés à la Chine — avaient tenté d’exploiter les modèles Anthropic pour infiltrer des organisations. L’entreprise a détecté et stoppé une campagne ciblant environ 30 entités.

Mythos représente un seuil où Anthropic doute, publiquement, de sa capacité à contenir les risques d’un déploiement général. C’est une position qu’aucun grand lab n’avait encore assumée aussi franchement.


Les marchés, eux, n’ont pas attendu les explications

CrowdStrike -7 %, Palo Alto -6 % : la Bourse vote avec ses pieds

Le vendredi suivant la publication de Fortune, les valeurs de cybersécurité s’effondrent. CrowdStrike perd 7 %, Palo Alto Networks 6 %, Zscaler 4,5 %, Okta, SentinelOne et Fortinet environ 3 % chacun. Le Global X Cybersecurity ETF recule de 2,7 %.

La logique des investisseurs est simple, peut-être trop : si une IA peut faire le travail d’une équipe de pentest en quelques heures, les outils de défense actuels deviennent-ils obsolètes ? La question est légitime. La réponse l’est moins.

Un scénario déjà vu — et déjà mal interprété

Ce n’est pas la première fois. En février 2026, le lancement de Claude Code Security — un outil d’analyse automatisée de code — avait provoqué une déroute similaire : CrowdStrike et Zscaler avaient alors chuté d’environ 10 %, et l’ETF cybersécurité avait atteint son plus bas depuis novembre 2023.

À l’époque, Nikesh Arora, PDG de Palo Alto Networks, avait exprimé sa perplexité face à cette lecture : ses clients, disait-il, cherchent précisément à davantage utiliser l’IA pour renforcer leurs défenses — pas à s’en passer. Le marché panique sur une tendance qui, en réalité, booste la demande pour les acteurs bien positionnés. Mais la Bourse a une relation compliquée avec la nuance.


Ce que ça change — et ce que ça ne change pas encore

Pas d’API publique. Pas de date. Pas de démo.

Claude Mythos n’est pas disponible. Son entraînement est terminé, son déploiement est suspendu à des évaluations de sécurité externes dont les résultats ne sont pas publiés. L’accès anticipé est réservé à un cercle fermé d’organisations de cyberdéfense. Anthropic ne communique pas de calendrier.

Ce qui est certain : le modèle existe, il surpasse tout ce qu’Anthropic a produit jusqu’ici, et l’entreprise elle-même n’est pas prête à assumer les conséquences d’une diffusion large.

La fuite était-elle orchestrée ?

Aucune preuve en ce sens. L’explication technique est banale : des fichiers rendus publics par défaut dans un CMS, sans verrouillage manuel. Les chercheurs les ont trouvés par une recherche simple. Anthropic a réagi en quelques heures. Les spéculations sur un coup marketing ou une fuite intentionnelle restent des spéculations — contredites par les risques légaux et réputationnels évidents pour un lab qui se positionne précisément sur la responsible AI.


Le point de vue DeepDive

Ce que cette affaire révèle n’est pas une erreur de configuration. C’est une tension structurelle que l’industrie de l’IA repoussait depuis des mois : que se passe-t-il quand un modèle dépasse la capacité de son créateur à en garantir un usage sûr ?

Anthropic vient, involontairement, de poser la question en public. Et sa réponse — retenir un modèle dont elle reconnaît elle-même les capacités offensives exceptionnelles — est, à sa façon, rassurante. C’est la première fois qu’un grand lab choisit explicitement de ne pas publier plutôt que de prendre le risque.

André Gentit, formateur IA chez DeepDive, le formule ainsi : « Ce n’est pas tant le modèle qui est intéressant — c’est la décision de le garder. Ça veut dire que quelqu’un, quelque part, a dit non. Et dans cette industrie, c’est presque révolutionnaire. »

L’ouverture, elle, est plus inconfortable : si Anthropic retient Mythos, combien de labs moins scrupuleux construisent la même chose sans se poser la question ? La vague d’exploits IA évoquée dans les documents internes n’est peut-être pas une hypothèse. C’est peut-être un calendrier.


Cet article a été produit par la rédaction DeepDive. Pour aller plus loin sur les enjeux IA en cybersécurité et les modèles de nouvelle génération, retrouvez nos analyses sur deep-dive.fr.


Facebook
Twitter
LinkedIn
WhatsApp

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée Champs requis marqués avec *

Poster commentaire

Catégories

Catégories

Actu IA

Articles récents

Commentaires récents