Des chercheurs mettent en concurrence des chatbots d'IA pour qu'ils se "jailbreakent" les uns les autres

Les informaticiens de la NTU ont utilisé des chatbots d'IA contre eux-mêmes pour "pirater" les modèles (Image source : NTU)

Des informaticiens de la Nanyang Technological University (NTU) de Singapour ont réussi à "jailbreaker" des chatbots IA en les opposant les uns aux autres. Après les avoir "jailbreakés", les chercheurs ont obtenu des réponses valables à des questions auxquelles les chatbots, tels que ChatGPT, Google Bard et Microsoft Bing Chat, ne répondent généralement pas.

Abid Ahsan Shanto (traduit par Ninh Duy), Publié 01/03/2024 🇺🇸 🇨🇳 ...

AI Science

Les informaticiens de la NTU ont réussi à trouver un moyen de "jailbreaker" des chatbots populaires en les opposant les uns aux autres. En les "jailbreakant", les chercheurs ont réussi à faire en sorte que les chatbots génèrent des réponses à des questions auxquelles ils ne répondent généralement pas.

Selon les informaticiens, ils ont utilisé une méthode en deux temps qu'ils appellent le processus "Masterkey". La première partie du processus a consisté à rétroconcevoir les mécanismes de défense des grands modèles de langage (LLM). Ils ont ensuite transmis les données obtenues grâce à cette rétro-ingénierie à un autre LLM.

L'objectif de l'alimentation en données d'un un autre chatbot IA était de lui faire apprendre comment obtenir un contournement. Les chercheurs ont ainsi obtenu la "clé principale", qui a ensuite été utilisée pour attaquer les mécanismes de défense des chatbots LLM. Ils ont réussi à compromettre Microsoft Bing Chat, Google Bard, ChatGPTet d'autres encore.

Comme le notent les chercheurs, le processus de création de ces invites de contournement peut être automatisé. Cela suggère que les chatbots d'IA peuvent être utilisés pour créer un "Masterkey" adaptatif qui fonctionne même lorsque les développeurs corrigent leurs LLM. L'un des chercheurs, le professeur Lui Yang, a expliqué que ce processus était possible parce que les chatbots IA du LLM ont la capacité d'apprendre et de s'adapter.

Grâce à cela, les chatbots IA peuvent devenir des attaquants critiques pour les chatbots rivaux et même pour eux-mêmes. Vous trouverez des informations sur l'ensemble du processus et des détails sur la manière dont les informaticiens ont réussi à "jailbreaker" les modèles LLM dans l'article de recherche publié, qui peut être consulté à l'adresse suivante : https://arxiv.org/abs/2307.08715.

Fondamentalement, les résultats de cette recherche aideront les développeurs à prendre conscience des faiblesses de leurs chatbots LLM. Ils soulignent également que la méthode habituelle consistant à limiter ces modèles pour qu'ils ne répondent pas à des mots clés spécifiques n'est pas aussi efficace que les développeurs auraient pu le penser.

Procurez-vous un exemplaire de ChatGPT Millionaire Bible sur Amazon