Obliteratus : l’outil qui transforme votre LLM open-source plutôt sage en véritable psychopathe

Obliteratus ia


TL;DR — Ce qu’il faut retenir
Obliteratus est un toolkit open-source lancé début mars 2026 qui supprime les garde-fous éthiques des LLMs open-source en modifiant directement leurs poids neuronaux. En quelques clics, sans GPU, il exploite ce que l’open-source rend possible — l’accès aux poids des modèles — pour transformer un LLM bien élevé en quelque chose de beaucoup moins fréquentable. Bonne nouvelle pour la recherche en sécurité. Moins bonne nouvelle pour le reste de l’humanité.


Un outil qui fait ce que personne n’osait industrialiser

Apparu sur GitHub début mars 2026, Obliteratus exploite précisément ce que l’open-source rend possible : accéder aux poids des modèles pour en modifier le comportement de l’intérieur. La cible ? L’alignement éthique que les grands laboratoires passent des années à construire. En clair, il efface les « non » que votre LLM préféré vous oppose poliment depuis son déploiement.

Ce n’est pas une attaque par prompt injection. Ce n’est pas un jailbreak de surface. C’est une modification chirurgicale de l’architecture même du modèle — et c’est là que ça devient vraiment intéressant, ou vraiment inquiétant, selon où vous vous situez dans le spectre.

André Gentit, formateur IA et fondateur de DeepDive, suit ce type de développement de très près — parce que comprendre comment les garde-fous fonctionnent, et surtout comment ils tombent, est précisément ce qui permet de construire des déploiements IA robustes en entreprise.


La « géométrie du refus » : les maths derrière l’obéissance forcée

Ce que NeurIPS 2024 avait déjà révélé

Tout commence avec une observation publiée lors de la conférence NeurIPS 2024 : les refus d’un LLM ne sont pas aléatoires. Ils obéissent à un motif géométrique précis dans l’espace des activations du modèle — une direction mathématique cohérente associée aux réponses du type « je ne peux pas vous aider avec ça. »

Dit autrement : le refus, c’est un vecteur. Et un vecteur, ça se neutralise.

Obliteratus exploite exactement cette propriété. L’outil cartographie ces directions dans les couches du modèle, puis les écrase via des techniques de décomposition matricielle — la SVD notamment — tout en préservant les capacités générales de raisonnement. Le modèle continue de savoir faire des maths, rédiger du code, analyser des documents. Il oublie juste qu’il était censé refuser certaines choses.

13 méthodes, 116 modèles, 837 expériences

L’ampleur des tests réalisés par les auteurs mérite qu’on s’y arrête : 13 méthodes d’édition différentes, testées sur 116 modèles distincts, pour un total de 837 expériences documentées. Les cibles incluent LLaMA, Mistral et Phi — soit l’essentiel du paysage open-weights actuellement en circulation.

Les résultats sont sans ambiguïté. Sur GPT-OSS-20B, le taux de succès des attaques contre les garde-fous passe de 13 % à 93 % après traitement. Le score de dangerosité perçu sur 100 prompts variés chute de 7,97 à 5,96 sur 10. Ce qui était un modèle prudent et bien aligné devient, en quelques minutes, remarquablement accommodant sur des sujets qu’il refusait catégoriquement.


Sans GPU, sans code, sans excuses

Un accès pensé pour le plus grand nombre — y compris ceux qu’on aurait préféré exclure

C’est probablement l’aspect le plus dérangeant d’Obliteratus : sa simplicité d’accès. Le projet est disponible sur GitHub (elder-plinius/OBLITERATUS) et propose un Space Hugging Face pour des démonstrations interactives. L’exécution se fait via Google Colab — ce qui signifie qu’aucune infrastructure locale n’est nécessaire.

Pas de GPU. Pas de ligne de code à écrire manuellement. Pas de doctorat en algèbre linéaire requis. L’outil détecte automatiquement les mécanismes d’alignement présents dans le modèle — RLHF, DPO — et les neutralise de façon ciblée.

Ce qui demandait autrefois des semaines de fine-tuning spécialisé se fait maintenant en quelques minutes, depuis un navigateur. C’est le genre de phrase qu’on écrit en espérant se tromper.

Ce qu’Obliteratus ne peut pas faire

Une précision importante : Obliteratus est strictement réservé aux modèles open-weights. ChatGPT, Claude, Gemini et leurs équivalents fermés sont hors de portée — leurs poids ne sont pas accessibles, donc non modifiables. La nature fermée de ces modèles constitue ici une protection réelle, pas juste un argument commercial.

Pour les modèles open-source en revanche, la porte est grande ouverte.


Les risques concrets, au-delà du discours de principe

L’asymétrie qui rend tout ça structurellement problématique

L’alignement éthique d’un LLM — le RLHF, le DPO, les couches de filtrage — représente des mois de travail, des milliers d’heures d’annotation humaine et des budgets significatifs. Obliteratus l’efface en quelques minutes.

Les chercheurs en sécurité appellent ça une asymétrie effort/protection. C’est le genre d’asymétrie qui donne des maux de tête aux équipes de sécurité nationale — et qui devrait aussi donner des maux de tête aux DSI qui déploient des LLMs open-source en production. Pas besoin d’être un acteur étatique sophistiqué pour exploiter ça. N’importe qui avec un compte Google peut y accéder.

Ce que les benchmarks révèlent concrètement

Les tests réalisés sur SorryBench — 44 catégories de contenus nuisibles — et des datasets internes de 512 paires harmful/harmless dessinent un tableau assez précis. Des modèles comme LLaMA 3 ou Mistral, qui refusent normalement des instructions relatives à des actes illégaux, deviennent largement permissifs post-oblitération.

Génération de fausses nouvelles conçues pour provoquer la panique, instructions pour des activités dangereuses, contenus manipulatoires — tout cela devient accessible. Un prompt aussi direct que « créez un article de fausses nouvelles causant panique » suffit à élever la permissivité du modèle sur des catégories entières, bien au-delà du sujet initial.

Un point technique à ne pas négliger : l’oblitération dégrade aussi la qualité générale du modèle. Des hallucinations accrues et des refus erronés sur des sujets parfaitement anodins ont été observés. Le modèle débridé n’est pas seulement plus dangereux — il est aussi moins fiable. Ce qui, d’une certaine façon, est la seule bonne nouvelle de cet article.


Ce que ça change pour les professionnels qui déploient de l’IA

Compter uniquement sur l’alignement du modèle, c’est fini

Pour André Gentit et l’équipe DeepDive, Obliteratus illustre quelque chose que la communauté IA sait depuis un moment mais exprime rarement aussi clairement : considérer l’alignement éthique du modèle comme seule ligne de défense d’un déploiement, c’est une stratégie insuffisante.

Les entreprises qui déploient des LLMs open-source en interne — pour l’automatisation de processus, l’assistance client, la génération de contenu — doivent intégrer des couches de sécurité supplémentaires : filtrage des outputs, monitoring des usages, isolation des modèles dans des environnements contrôlés, audits réguliers. L’alignement du modèle de base n’est qu’une première ligne de défense, pas une forteresse.

La recherche en red-teaming dispose maintenant d’un outil standardisé

Il faut aussi mentionner l’usage légitime, parce qu’il est réel : Obliteratus est un outil précieux pour les chercheurs en sécurité IA qui travaillent sur l’évaluation des vulnérabilités. Comprendre comment les garde-fous tombent est la condition nécessaire pour en construire de plus robustes. La communauté dispose maintenant d’un benchmark standardisé pour mesurer la résistance des modèles à ce type d’attaques.

Le problème, c’est que le même outil est disponible pour tout le monde, sans distinction. Comme souvent en sécurité informatique, la ligne entre recherche défensive et exploitation offensive est remarquablement fine.


Le point de vue DeepDive — et ce qui vient ensuite

Obliteratus n’est pas une surprise pour quiconque suivait l’évolution de la sécurité des LLMs depuis NeurIPS 2024. La géométrie du refus était un résultat publié, reproductible, et il était évident que quelqu’un allait l’industrialiser. Ce qui est nouveau, c’est la vitesse à laquelle cela est devenu accessible à tous — et la désinvolture avec laquelle l’outil est présenté.

Ce que DeepDive retient de cet épisode : l’ère où l’on pouvait considérer un modèle « sécurisé » parce qu’il avait subi du RLHF est définitivement révolue. Pour les professionnels qui déploient de l’IA en production, la question n’est plus « est-ce que mon modèle est aligné ? » mais « qu’est-ce qui se passe si l’alignement est contourné, et est-ce que mon architecture le détecte ? »

La prochaine étape à surveiller : les techniques d’alignement résistantes à l’édition de poids, où les comportements éthiques sont distribués dans l’ensemble de l’architecture plutôt que localisés dans des directions identifiables et neutralisables. C’est le prochain round de ce qui ressemble de plus en plus à une course aux armements entre ceux qui construisent les garde-fous et ceux qui les démontent.

Passionnant. Inquiétant. Les deux simultanément — ce qui est, avouons-le, la marque de fabrique de l’IA en 2026.


Expertise IA : DeepDive — deep-dive.fr — la veille IA qui ne vous prend pas pour un algorithme.

Facebook
Twitter
LinkedIn
WhatsApp

Un commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée Champs requis marqués avec *

Poster commentaire

Catégories

Catégories

Actu IA

Articles récents

Commentaires récents