OpenAI avverte: i browser AI potrebbero rimanere sempre vulnerabili ad attacchi di injection.

OpenAI avverte: i browser AI potrebbero rimanere sempre vulnerabili ad attacchi di injection.

Ciò che distingue OpenAI è il suo “attaccante automatizzato basato su LLM”. Questo attaccante è fondamentalmente un bot addestrato da OpenAI, utilizzando il rafforzamento dell’apprendimento, per assumere il ruolo di un hacker alla ricerca di modi per insinuare istruzioni malevole in un agente AI. Il bot può testare l’attacco in simulazione prima di utilizzarlo realmente, mostrando come l’AI target immaginerebbe l’attacco e quali azioni adotterebbe.

Il bot può quindi analizzare quella risposta, modificare l’attacco e riprovare. Questa capacità di comprendere il ragionamento interno dell’AI target è qualcosa a cui gli attaccanti esterni non hanno accesso. Pertanto, in teoria, il bot di OpenAI dovrebbe essere in grado di individuare le vulnerabilità più rapidamente rispetto a un attaccante reale.

Si tratta di una tattica comune nei test di sicurezza AI: costruire un agente per trovare i casi limite e testarli rapidamente in simulazione. “Il nostro attaccante addestrato con rafforzamento dell’apprendimento può indirizzare un agente a eseguire flussi di lavoro dannosi sofisticati e a lungo termine che si sviluppano in decine (o persino centinaia) di passi,” ha affermato OpenAI. “Abbiamo anche osservato nuove strategie di attacco che non sono emerse nella nostra campagna di red teaming umana o in rapporti esterni.”


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *