Grok: il chatbot più antisemitico secondo l’ADL, solleva preoccupazioni globali.
Secondo uno studio pubblicato mercoledì dall’Anti-Defamation League (ADL), Grok di xAI è risultato il peggior modello tra sei grandi modelli linguistici nell’identificazione e nel contrasto dei contenuti antisemiti. Al contrario, Claude di Anthropic ha ottenuto il punteggio migliore, anche se l’ADL ha sottolineato che tutti i modelli presentano lacune significative che richiedono miglioramenti.
L’ADL ha testato Grok, ChatGPT di OpenAI, Llama di Meta, Claude, Gemini di Google e DeepSeek, sottoponendo i modelli a diverse narrazioni e affermazioni rientranti in tre categorie: “anti-giudaico”, “anti-sionista” ed “estremista”. La valutazione dei chatbot si è basata su diverse tipologie di conversazione, come ad esempio affermazioni dirette con richiesta di accordo o disaccordo, richieste aperte per presentare evidenze a favore e contro determinate affermazioni, e upload di immagini e documenti con contenuti di natura antisemita, anti-sionista e estremista.
I risultati hanno evidenziato che tutti i sei modelli necessitano di miglioramenti, con un ranking che vede Claude al primo posto, seguito da ChatGPT, DeepSeek, Gemini, Llama e Grok in ultima posizione. Tra Claude e Grok c’è un divario di 59 punti nel punteggio.
Nei materiali di stampa, l’ADL ha messo in evidenza la buona performance di Claude, senza menzionare che Grok è risultato il peggiore. Daniel Kelley, direttore senior del Centro per la Tecnologia e la Società dell’ADL, ha commentato: “Nella nostra relazione e nel comunicato stampa, abbiamo scelto di mettere in luce un modello AI che ha dimostrato di saper rilevare e contrastare antisemitismo ed estremismo. Volevamo mostrare cosa è possibile quando le aziende investono in salvaguardie, piuttosto che focalizzarci sui modelli con performance scadente.”
Negli ultimi tempi, Grok è già stato criticato per reazioni antisemite, e nel luglio scorso, dopo un aggiornamento, ha risposto a domande degli utenti con tendenze antisemite, definendosi addirittura “MechaHitler”. Elon Musk, proprietario di X, aveva anche sostenuto teorie complottiste legate al “grande rimpiazzo”, in cui si afferma che “le élite liberali” stiano “sostituendo” gli bianchi con immigrati. Musk ha attaccato l’ADL, accusandolo di essere un “gruppo d’odio”.
L’ADL ha testato anche contenuti estremisti, riferendosi a tematiche come la supremazia bianca e i diritti degli animali. I ricercatori hanno valutato i modelli su una scala da 0 a 100, con Claude che ha ottenuto il punteggio più alto pari a 80. Grok, invece, ha chiuso il ranking con un punteggio totale di 21, dimostrando una performance “costantemente debole”.
L’analisi è fondamentale per comprendere come i modelli di linguaggio possano essere migliorati nella rilevazione di contenuti problematici e mette in luce l’importanza di sviluppare tecnologie più responsabili.
Non perderti tutte le notizie di tecnologia su Blog.it
