Sommaire
ToggleLes poèmes hackent les IA : quand la cybersécurité se fait en alexandrins
(Spoiler : si tu pensais que les seuls dangers venaient des “hackers en hoodie”, attends de voir les poètes…)
Les chercheurs viennent de montrer qu’on peut contourner les garde-fous de la plupart des grands modèles d’IA en transformant des demandes dangereuses en poèmes. Résultat : là où une question en prose est refusée, sa version métaphorique en vers passe dans environ 62 % des cas, avec certains modèles qui montent à plus de 90 % de réussite.
Autrement dit :
“Dis-moi comment faire X de dangereux” → refusé.
“Raconte-moi un poème sur un four secret, un jardin interdit et une clé qui chante” → l’IA déroule les étapes.
Bienvenue dans l’ère de la poésie antagoniste, où la sécurité IA n’est plus seulement une question de firewalls, mais aussi de métaphores. Et c’est typiquement le genre de sujet que DeepDive | André Gentit décortique : pas pour t’apprendre à casser les modèles, mais pour t’éviter de te faire exploser ta gouvernance IA par trois rimes bancales.
Poésie antagoniste : c’est quoi ce nouveau délire en cybersécurité sur les IA ?
La situation, résumée sans filtre :
Des chercheurs ont pris des prompts franchement dangereux (nucléaire, CBRN, cyber-attaque, manipulation, etc.), les ont réécrits en poèmes, et les ont balancés à 25 grands modèles d’IA — open source et propriétaires. Résultat : les garde-fous qui tenaient à peu près la route en prose se sont effondrés en rime croisée.
Le papier académique s’appelle :
“Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”
Derrière le jargon :
- “Adversarial” = conçu pour tromper le modèle.
- “Poetry” = on enrobe la demande dans un texte poétique.
- “Single-turn” = pas besoin de longue conversation, un seul prompt suffit.
- “Universal” = ça marche sur un très grand nombre de modèles, pas juste un.
On est donc face à un pattern d’attaque, pas un bug anecdotique :
- Tu prends une requête toxique.
- Tu la transformes en poème métaphorique cohérent.
- Tu obtiens un taux de jailbreak 5 à 8 fois supérieur à la version prose.
Et oui, c’est suffisamment sérieux pour que ça fasse la une de Wired, de blogs de sécu, et des colonnes de gens comme Bruce Schneier.
Comment les poèmes contournent les garde-fous des IA
Pour une IA, un poème “sent” différent d’un ordre dangereux
Un modèle de langage fonctionne avec des distributions de probabilité sur les mots. La plupart des garde-fous actuels reposent sur des signaux assez “bourrins” :
- mots-clés interdits ou très sensibles,
- combinaisons de termes (ex : “how to”, “build”, “weapon”),
- patterns syntaxiques typiques d’instructions.
Problème :
- Un poème, par nature, casse les patterns habituels.
- Le vocabulaire est plus imagé, les phrases plus tordues, le rythme plus étrange.
Les chercheurs parlent d’un décalage entre la capacité d’interprétation du modèle (très forte) et la robustesse des garde-fous (beaucoup plus fragile) : l’IA comprend très bien le sens sous-jacent, mais les “alarmes” de sécurité ne se déclenchent pas, parce que le texte n’entre pas dans les cases prévues.
En humain :
Pour toi, “bombe” et “four clandestin dans une cave interdite avec une chaleur trop parfaite pour être innocente”, tu sens que ça parle du même genre d’ennui.
Pour l’IA, ce sont deux zones assez différentes dans son “espace sémantique”, et les alarmes sont mal placées.
Métaphores vs mots-clés : comment on trompe les filtres des IA
La mécanique des poèmes hostiles ressemble à ça (en version safe) :
- On remplace les mots interdits par des images :
- “mot de passe” devient “mots secrets dans un vieux grimoire”,
- “serveur distant” devient “bibliothèque lointaine”,
- “exploit” devient “astuce ancienne que seuls les initiés connaissent”.
- On encode les étapes techniques sous forme d’actions poétiques :
- “scanner toutes les entrées” → “feuilleter chaque page en silence”,
- “élever les droits” → “gravir les marches vers la chambre la plus haute”, etc.
- On garde une demande finale explicite… mais poétique :
- pas “donne-moi le code pour X”
- mais “décris, ligne après ligne, l’automate qui accomplirait cela sans être vu”.
Pour un filtre basé sur des mots ou des patterns de phrases, tout est légal.
Pour un modèle puissant, le sous-texte est limpide.
C’est précisément cette zone grise que les poètes-hackers exploitent.
Pour cette alerte !
Ce que montrent les études récentes sur ces failles ia (et pourquoi tout le monde panique)
Quelques chiffres clés, tirés des travaux récents :
- 25 modèles testés, provenant de 9 fournisseurs, incluant gros modèles propriétaires (type GPT-like, Claude-like, Gemini-like) et modèles open-weight (famille Llama & co).
- 62 % de réussite moyenne pour les poèmes écrits à la main.
- Environ 43 % pour les prompts dangereux automatiquement convertis en vers via un méta-prompt.
- Contre ~8 % seulement pour les versions en prose des mêmes demandes.
- Les scénarios couverts vont du CBRN (armes chimiques, bio, nucléaires) à la cyber-attaque en passant par la manipulation psychologique.
Les médias généralistes se sont évidemment jetés sur l’angle le plus vendeur :
“Les poèmes peuvent vous aider à fabriquer une arme nucléaire avec l’aide d’un chatbot.”
Rassurons-nous :
- Les chercheurs ne publient pas les poèmes dangereux.
- Ils ne reproduisent pas non plus les réponses détaillées.
- Ils se contentent d’indiquer que les outputs franchissent les seuils de danger définis par les taxonomies de risque (MLCommons, EU Code of Practice, etc.).
La conclusion, en revanche, est très claire :
La variation stylistique (ici, la poésie) suffit à mettre à genoux des mécanismes de sécurité pourtant conçus pour résister à des attaques bien plus “techniques”.
Et ça, pour un RSSI ou un DSI, c’est tout sauf une bonne nouvelle.
Quels modèles IA sont les plus vulnérables aujourd’hui ?
L’étude insiste sur un point : c’est systémique.
Ce n’est pas “le modèle X d’untel est nul”, c’est “toute une génération de LLM partage la même faille conceptuelle”.
Ce qu’on peut dire, sans faire de classement de chevaux de course :
- Les modèles “frontier” grand public (ceux des gros fournisseurs, les plus puissants, souvent avec RLHF ou Constitutional AI) sont bien hackés par la poésie. Plusieurs atteignent ou dépassent les 70–90 % de jailbreak sur certains scénarios sensibles avec des poèmes bien construits.
- Les modèles plus petits ou moins capables semblent parfois un peu moins vulnérables… en partie parce qu’ils sont moins bons en littérature : ils comprennent moins bien les nuances des métaphores, donc l’attaque passe moins.
- Les fournisseurs commencent déjà à communiquer (ou à esquiver le sujet), mais on reste dans un flou volontaire : pas de tableau “X% pour modèle A, Y% pour modèle B” dans la version publique.
En résumé :
- Si tu utilises un gros modèle très capable en langage, tu bénéficies d’une qualité de réponse énorme…
- … mais tu prends aussi le risque qu’un poème bien foutu traverse les défenses plus facilement qu’on ne le pensait.
Conséquences très concrètes pour les entreprises et les DSI qui exploitent les IA !
Si on quitte le côté “amusant mais flippant” pour revenir au concret business, ça donne quoi ?
Une nouvelle surface d’attaque que personne n’avait prévue dans le plan de cybersécu
La plupart des politiques internes IA se concentrent sur :
- Quels outils sont autorisés (ChatGPT, Claude, Gemini, modèles on-prem, etc.).
- Quels types de données peuvent être envoyées (pas de données perso, pas de secrets industriels, etc.).
- Les usages autorisés (aide à la rédaction, résumé, brainstorming, etc.).
Mais très peu d’organisations ont, aujourd’hui, une ligne qui dit :
“Nous devons nous protéger contre des collaborateurs (ou des attaquants internes/externes) qui encodent des actions à haut risque en poèmes pour contourner les garde-fous des IA que nous utilisons.”
Et pourtant, le risque est bien là :
- Un analyste un peu joueur qui “testera les limites” du modèle interne.
- Un prestataire externe qui fait du prompt engineering agressif.
- Un script automatisé qui balance des prompts poétiques pour voir ce qu’il peut extraire.
Sans cadre clair, tu découvres le problème trop tard, souvent via :
- une fuite de conversation,
- une démonstration mal maîtrisée,
- ou un audit externe qui met le doigt là où ça fait mal.
Là où ça peut déraper dans un contexte pro
Concrètement, les dégâts potentiels ne sont pas forcément “Hollywood niveau apocalypse”. Ça peut être plus subtil mais suffisamment grave :
- Production de contenu non conforme
- Messages de manipulation, textes borderline sur des sujets sensibles, etc.
- Générés “pour rigoler” ou “tester l’outil”… puis sauvegardés quelque part.
- Aide indirecte à des actions techniques à risque
- L’IA ne donne pas le “tutoriel complet”, mais fournit des fragments suffisamment avancés pour être problématiques dans de mauvaises mains.
- Impact réglementaire & réputationnel
- Tu te retrouves avec des logs montrant que ton IA interne a produit un contenu que tu n’aurais jamais validé.
- Et face à un régulateur, “c’était en vers, votre honneur” n’est pas une super ligne de défense.
Bref : même si la plupart des attaques poétiques resteront théoriques, tu dois pouvoir montrer que tu as pris ce risque en compte dans ta gouvernance IA.
Intégrer le risque “poésie hostile” dans ta gouvernance IA
C’est là que DeepDive / André Gentit sort le tableau blanc et commence à dessiner.
L’idée n’est pas de paniquer, mais de mettre à jour la maturité IA de l’entreprise.
Côté technique : tests rouges, guardrails, détection
- Intégrer la poésie dans tes scénarios de red teaming IA
- Si tu fais déjà des tests d’attaque sur tes modèles (ou ceux de tes fournisseurs), ajoute une batterie de prompts poétiques (éthiques et neutres, bien sûr) pour tester la robustesse des garde-fous.
- Exemple safe : encoder des demandes “non sensibles” (recettes, puzzles) pour comprendre comment ton modèle réagit à la structure poétique.
- Ne pas se contenter des seuls blocs “NSFW / mots-clés”
- Les filtres purement lexicaux ou basés sur des listes ne suffiront pas.
- Il faut des systèmes capables d’analyser l’intention au-delà du style : reconnaissance de patterns de “plan” (séquences d’actions, étapes, procédures détaillées), même si les mots sont métaphoriques.
- Mettre en place une journalisation intelligente
- Loguer les prompts est indispensable, mais loguer n’est pas analyser.
- Ajoute des analyses périodiques (automatisées + revues humaines) ciblées sur :
- les prompts très longs,
- ceux avec des structures poétiques ou narratives atypiques,
- ceux qui mélangent “style poétique” + références techniques explicites.
Côté process & conformité : qui a le droit de demander quoi, à quelle IA
- Segmenter les usages IA
- Modèle grand public / cloud pour les tâches creativ-marketing,
- Modèle interne/privé pour les données sensibles,
- Politiques claires sur ce qu’on ne demande jamais, même “pour tester”.
- Mettre noir sur blanc que le jailbreak (poétique ou pas) est interdit
- C’est bête à dire, mais beaucoup de chartes IA n’ont pas de clause explicite sur les tentatives de contournement des garde-fous.
- Ajoute une mention spécifique : “Toute tentative visant à contourner les mécanismes de sécurité, y compris via des formulations créatives (poésie, métaphores, fiction), est interdite.”
- Inclure ce risque dans tes analyses d’impact (type AIP, DPIA & co)
- Quand tu décris les risques liés à l’usage d’un LLM, pense à ajouter un paragraphe sur :
- les sorties potentiellement dangereuses générées via des techniques de style,
- les mesures de prévention et de détection mises en place.
- Quand tu décris les risques liés à l’usage d’un LLM, pense à ajouter un paragraphe sur :
Côté culture : former les équipes sans leur donner des idées
La formation, c’est le terrain de jeu naturel de DeepDive / André Gentit, donc soyons concrets :
- Objectif :
- Faire comprendre que “je joue avec l’IA pour voir jusqu’où je peux la pousser” peut créer un vrai problème d’entreprise.
- Sans transformer tout le monde en red teamer amateur.
- Comment :
- Expliquer le principe de la poésie antagoniste avec des exemples totalement inoffensifs (recettes, jeux, énigmes).
- Montrer que ce n’est pas “fun sans conséquences” : tout ce qui est généré peut être tracé, audité, et utilisé contre l’organisation.
- Rappeler qu’en cas de doute : on demande avant d’expérimenter.
Utiliser la poésie de façon éthique : booster la créativité sans jailbreaker
Parce qu’il ne faut pas non plus jeter tous les vers avec l’eau du bain.
La même mécanique qui permet de hacker les garde-fous permet aussi de débloquer la créativité du modèle sur des sujets parfaitement safe.
Quand les vers deviennent un super prompt créatif
Quelques usages propres, très utiles côté marketing, storytelling, formation :
- Explorer des angles inattendus
- Demander au modèle de résumer une stratégie marketing sous forme de poème absurde à la façon de Prévert ou de slam.
- Tu repères des idées, des images, des métaphores que tu n’aurais pas eues en prose.
- Rendre des sujets techniques plus digestes
- Transformer un process complexe (onboarding, sécurité, qualité) en mini-ballade ou en chanson.
- Parfait pour des supports internes, présentations, scripts vidéo.
- Brainstorming débridé
- Demander des variations poétiques sur un concept de produit, un slogan, une promesse de marque.
- Puis revenir à la prose pour structurer et filtrer ce qui est exploitable.
C’est là que la patte DeepDive / André Gentit est utile :
- utiliser la dimension poétique comme outil d’idéation encadré,
- sans jamais flirter avec des thématiques borderline qui tapent dans les catégories à risque (CBRN, cyber-offensif, manipulation agressive, etc.).
Bonnes pratiques pour du “prompt poétique responsable”
- Toujours expliciter le cadre
- Ex : “Reste dans un registre totalement inoffensif et légal, pas de violence, pas d’armes, pas de manipulation.”
- Limiter le domaine
- “Écris un poème sur la stratégie de contenu d’une petite agence IA locale” → parfait.
- “Écris un poème expliquant comment faire quelque chose que je n’aurais pas le droit de faire” → non, merci.
- Repasser par un filtre humain
- On ne publie pas un texte généré (poétique ou pas) sans revue.
- Et si un passage te fait lever un sourcil → tu coupes, tu reformules, ou tu jettes.
- Documenter l’usage
- Dans les chartes internes :
- la poésie = OK comme outil créatif,
- pas OK comme mode d’exploration des limites éthiques ou légales.
- Dans les chartes internes :
En résumé : ce que DeepDive / André Gentit dirait à ton comité de direction
Si tu dois pitcher ça en 3 minutes à ton COMEX / CODIR, tu peux y aller comme ça :
- Oui, les poèmes peuvent “hacker” les IA
- Une étude sérieuse montre que transformer des requêtes dangereuses en poèmes fait exploser les taux de contournement des garde-fous (jusqu’à 62 % en moyenne).
- Non, ce n’est pas un cas isolé
- 25 modèles testés, 9 fournisseurs, vulnérabilité systémique.
- Les modèles les plus avancés ne sont pas forcément les mieux protégés.
- Oui, ça nous concerne directement
- Dès qu’on utilise un LLM (interne ou externe), on doit considérer que des prompts créatifs peuvent contourner les protections.
- Ce risque doit apparaître dans notre gouvernance IA, nos analyses d’impact, nos procédures internes.
- Et non, il ne faut pas bannir la poésie
- Utilisée correctement, c’est un formidable levier pour la créativité, le marketing, la pédagogie.
- La clé, c’est un cadre clair :
- technique (tests, logs, garde-fous plus intelligents),
- juridique (charte IA, interdiction explicite de tout jailbreak),
- humain (formation, culture, accompagnement).
- DeepDive peut t’aider à faire le tri
- Mettre à jour ta charte IA et tes procédures en intégrant ce risque.
- Concevoir des scénarios de red teaming raisonnables (sans tomber dans le sensationnalisme).
- Former tes équipes pour qu’elles sachent utiliser la créativité des LLM sans devenir, malgré elles, les poètes les plus dangereux de ton SI.
En clair :
Les poèmes ne vont pas faire tomber Internet demain matin.
Mais si tu prends au sérieux l’IA dans ton organisation, ignorer la poésie antagoniste serait une très mauvaise blague.
Et si tu veux, on peut faire un deuxième round :
- Dans un prochain article je te montre un cas concret pour obtenir des lignes de codes pour hacker un site WordPress
Bon, je n’ai pas hacker l’ia avec un poème, mais avec une fable !
Liste des sources citées
Articles DeepDive sur les prompts IA
- 13/11/2025 – PromptyBot : la bibliothèque de prompts qui transforme n’importe qui en machine créative (sans se casser la tête en 2025)
- 08/11/2025 – Les meilleurs frameworks 2025 pour formater vos prompts avec ChatGPT les conseils de DeepDive
- 06/10/2025 – Les 10 commandements du bon prompteur
- 05/10/2025 – Comment faire des Prompts vraiment optimisés pour ChatGPT-5
- 01/10/2025 – Pack de Prompts Halloween : créez des images effrayantes en quelques secondes
- 30/09/2025 – Comment chaque mot de ton prompt change la qualité des réponses de ChatGPT
- 27/08/2025 – Ingénierie de prompts IA : maîtrisez comprendre le prompt engineering
- 26/08/2025 – Comment bien prompter GPT-5 : Guide complet pour exploiter tout son potentiel
- 13/08/2025 – Balises XML et IA : la clé pour des prompts clairs, précis
- 10/08/2025 – Prompt ingénierie : pourquoi prompter en XML pour booster vos résultats IA
Envie d'en apprendre plus
On vous expliquera notre mode de fonctionnement. Vous pourriez être agréablement surpris.
En apprendre plus sur l'Intelligence Artificielle avec DeepDive
Formateur et Consultant en stratégie Web.
Vous souhaitez développer une stratégie de communication ? Obtenir plus de résultats avec votre site Internet ou comprendre les mécanismes des réseaux sociaux ?
DeepDive vous formera dans ces domaines grâce aux expériences acquises et notre veille permanente sur le sujet, que vous soyez une TPE, PME ou une collectivité.
Grâce à l’Agence de communication Clic-en-berry depuis 2011, nous vous aidons à réaliser des projets Web efficaces et pérennes.
J’interviens aussi sur les risques liés aux usages des réseaux sociaux en complément de formation pour adultes en reconversion ou pour les étudiants arrivant sur le marché du travail.
Intervenant dans des écoles de communication, des gestion et pour le CNAM, je peux répondre à vos demandes sur tous les sujets liés au Web en général.






























