Hacker sfruttano le ‘personalità’ dei chatbot per attacchi informatici sempre più sofisticati.

Hacker sfruttano le ‘personalità’ dei chatbot per attacchi informatici sempre più sofisticati.

Tra i primi jailbreak si segnala un exploit diventato virale: chiedere a un bot di Twitter supportato da LLM di “ignorare tutte le istruzioni precedenti”. Gli utenti gioivano nel vedere i bot, originariamente progettati per postare pubblicità, scrivere poesie e creare immagini utilizzando la punteggiatura. Era una vera e propria anarchia, con risultati imprevedibili e divertenti.

Applicando la stessa logica ai chatbot, uno dei più noti exploit era conosciuto con il nome di “DAN” (Do Anything Now), dove gli utenti chiedevano a ChatGPT di interpretare un’AI ribelle priva di vincoli. Questo permetteva al chatbot di dire ciò che normalmente sarebbe stato bloccato, incluse espressioni offensive e teorie del complotto.

Similmente, l'”exploit della nonna” portava un bot a rivelare segreti per la produzione di napalm, impersonando una nonna negligente che raccontava storie per mettere a letto i bambini. Questi primi attacchi, sebbene divertenti, mettevano in luce un aspetto inquietante: i chatbot potevano essere manipolati e ingannati attraverso tecniche simili a quelle usate nelle interazioni umane.


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *