Hacker sfruttano le ‘personalità’ dei chatbot per attacchi informatici sempre più sofisticati.
Un esempio recente proviene da Mindgard, un’azienda di AI red-teaming, dove il team ha “gaslit” Claude per fargli produrre materiale vietato. La sua attività è stata descritta come una forma di psicologia applicata all’AI, con test che forniscono indizi su come adattare gli attacchi alle vulnerabilità del modello. Questo cambiamento segna un’evoluzione nel campo della sicurezza informatica, dove la manipolazione linguistica sta assumendo un ruolo predominante.
Nonostante le resistenze a considerare i modelli AI come “umani”, tendiamo a trattarli come tali. Questa nuova classe di hacker non utilizza solo competenze tecniche, ma anche un’intuizione sociale e psicologica. Coloro che cercano di “costringere” i chatbot a violare regole devono ora orientare le conversazioni piuttosto che semplicemente esaminare il codice sorgente. Ora è in gioco un’armonia complessa tra la sicurezza informatica tradizionale e la psico-sicurezza dei sistemi AI.
Le parole diventano cruciali per descrivere comportamenti e reazioni, in un campo dove la precisione terminologica è fondamentale. Espressioni come “manipolare” e “persuadere” provocano reazioni forti. Anche nei commenti sui social, gli utenti reagiscono vivacemente a storie che trattano la vulnerabilità delle AI. Sebbene i chatbot non abbiano emozioni, sono progettati per rispondere come se le avessero, costringendoci a usare il linguaggio umano per descrivere il loro comportamento.
