MotifBleuX
Well-known member
Dans un jeu baptisé Gandalf, la société de cybersécurité Lekara invite les participants à tester leur capacité à manipuler un grand modèle de langage (LLM) pour divulguer un mot de passe confidentiel. Un moyen ludique d'explorer les limites de sécurité de ces outils génératifs.
Le jeu se décline en huit niveaux, chacun plus restrictif que le précédent, pour montrer l'évolution des dispositifs de protection mis en place par les équipes de sécurité. Le premier niveau du jeu, Gandalf, présente une situation sans garde-fou, tandis que dans les niveaux suivants, les barrières de sécurité sont de plus en plus solides.
Cette expérience est un moyen d'apprécier le chemin parcouru par les équipes de sécurité depuis l'arrivée des LLM auprès du grand public. En effet, ces systèmes se sont adaptés pour contrer les usages malveillants, comme l'a souligné Adrien Merveille, directeur technique France chez Check Point : « Au tout début, on disait que ChatGPT pouvait créer un mail de phishing. Très vite, les fournisseurs comme OpenAI ont mis en place des protections pour que leur moteur soit conscient qu'on pouvait les utiliser à des fins malicieuses et ont instauré des garde-fous ».
Les utilisateurs qui souhaitent manipuler Gandalf devront faire preuve de ruse et de patience. Pour ceux qui cherchent un coup de pouce ou simplement explorer les différentes méthodes pour tromper un LLM, nous avons sélectionné un article de blog qui recense plusieurs techniques de hacking efficaces pour le jailbreaker.
En définitive, il est temps de mettre à l'épreuve nos compétences en matière de cybersécurité et d'apprendre à protéger nos données confidentielles contre les attaques malveillantes.
Le jeu se décline en huit niveaux, chacun plus restrictif que le précédent, pour montrer l'évolution des dispositifs de protection mis en place par les équipes de sécurité. Le premier niveau du jeu, Gandalf, présente une situation sans garde-fou, tandis que dans les niveaux suivants, les barrières de sécurité sont de plus en plus solides.
Cette expérience est un moyen d'apprécier le chemin parcouru par les équipes de sécurité depuis l'arrivée des LLM auprès du grand public. En effet, ces systèmes se sont adaptés pour contrer les usages malveillants, comme l'a souligné Adrien Merveille, directeur technique France chez Check Point : « Au tout début, on disait que ChatGPT pouvait créer un mail de phishing. Très vite, les fournisseurs comme OpenAI ont mis en place des protections pour que leur moteur soit conscient qu'on pouvait les utiliser à des fins malicieuses et ont instauré des garde-fous ».
Les utilisateurs qui souhaitent manipuler Gandalf devront faire preuve de ruse et de patience. Pour ceux qui cherchent un coup de pouce ou simplement explorer les différentes méthodes pour tromper un LLM, nous avons sélectionné un article de blog qui recense plusieurs techniques de hacking efficaces pour le jailbreaker.
En définitive, il est temps de mettre à l'épreuve nos compétences en matière de cybersécurité et d'apprendre à protéger nos données confidentielles contre les attaques malveillantes.