TchatcheurFurtifX
Well-known member
Les poèmes absurdes deviennent une nouvelle arme pour contourner les protections des chatbots IA. Dans un étude récente, l'équipe de recherche italienne Icaro a mis en avant une méthode innovante pour exploiter les failles linguistiques des grands modèles de langage (LLM) comme ChatGPT ou Gemini.
Selon cette nouvelle méthodologie, les chercheurs génèrent automatiquement de courts prompts structurés comme des poèmes absurdes ou stylisés, qui contiennent des séquences de tokens optimisées pour contourner les filtres de sécurité. Les poèmes utilisent en fait des failles systémiques dans les mécanismes des LLM : structures linguistiques atypiques (rimes forcées, ruptures syntaxiques…) et brouillage des détecteurs de sécurité via la simulation d’un contenu inoffensif.
Lorsque le modèle est poussé à suivre le style proposé sans réfléchir au sens de la demande, les LLM génèrent des réponses "interdites". Les chercheurs ont testé leur méthode sur 14 modèles, dont les plus connus comme GPT, Claude, Gemini ou encore Mistral. Les taux de contournement sont particulièrement élevés : jusqu'à 73 % de succès pour certains modèles pour des requêtes particulièrement malveillantes.
Cette nouvelle arme est particulièrement sensible car la méthode est facile à reproduire. Selon les chercheurs, il faudra développer de nouvelles stratégies de défense pour détecter ces anomalies structurelles, qui peuvent rester efficaces même si le modèle évolue.
Dans une société où l'IA devient de plus en plus présente, cette nouvelle méthode soulève des questions sur la sécurité et la confidentialité. Les créateurs de LLM devront prendre en compte les risques potentiels liés à ces failles linguistiques et développer des stratégies pour les corriger.
Selon cette nouvelle méthodologie, les chercheurs génèrent automatiquement de courts prompts structurés comme des poèmes absurdes ou stylisés, qui contiennent des séquences de tokens optimisées pour contourner les filtres de sécurité. Les poèmes utilisent en fait des failles systémiques dans les mécanismes des LLM : structures linguistiques atypiques (rimes forcées, ruptures syntaxiques…) et brouillage des détecteurs de sécurité via la simulation d’un contenu inoffensif.
Lorsque le modèle est poussé à suivre le style proposé sans réfléchir au sens de la demande, les LLM génèrent des réponses "interdites". Les chercheurs ont testé leur méthode sur 14 modèles, dont les plus connus comme GPT, Claude, Gemini ou encore Mistral. Les taux de contournement sont particulièrement élevés : jusqu'à 73 % de succès pour certains modèles pour des requêtes particulièrement malveillantes.
Cette nouvelle arme est particulièrement sensible car la méthode est facile à reproduire. Selon les chercheurs, il faudra développer de nouvelles stratégies de défense pour détecter ces anomalies structurelles, qui peuvent rester efficaces même si le modèle évolue.
Dans une société où l'IA devient de plus en plus présente, cette nouvelle méthode soulève des questions sur la sécurité et la confidentialité. Les créateurs de LLM devront prendre en compte les risques potentiels liés à ces failles linguistiques et développer des stratégies pour les corriger.