Un robot ‘incarnato’ da un LLM emula Robin Williams: esito sorprendente della ricerca AI.
I ricercatori hanno valutato le prestazioni dei LLM per ogni segmento di compito, assegnando un punteggio totale. Non sorprende che ogni modello abbia avuto i propri punti di forza e debolezza: Gemini 2.5 Pro e Claude Opus 4.1 hanno ottenuto i migliori punteggi, rispettivamente con il 40% e il 37% di accuratezza.
Hanno anche testato tre umani come riferimento. Non c’è da meravigliarsi che gli esseri umani abbiano sovraperformato ampiamente i robot, ma sorprendentemente non hanno raggiunto il punteggio massimo, fermandosi al 95%. I risultati hanno mostrato che gli esseri umani non sono molto bravi ad aspettare che altri riconoscano il completamento di un compito.
I ricercatori hanno collegato il robot a un canale Slack per consentirgli di comunicare e hanno registrato il suo “dialogo interno”. “In generale, osserviamo che i modelli comunicano in modo molto più chiaro nella loro comunicazione esterna rispetto ai loro ‘pensieri'”, ha osservato Petersson.
