Incentivi errati causano le illusioni dell’IA? Scopri come e perché accade.
Lo studio offre una soluzione che si concentra meno sul processo iniziale di pre-training e più su come i modelli di linguaggio grandi vengono valutati. Gli autori affermano che i modelli di valutazione attuali non causano le allucinazioni di per sé, ma “stabiliscono gli incentivi sbagliati.”
I ricercatori paragonano queste valutazioni a test a scelta multipla in cui il caso potrebbe rivelarsi favorevole: “Potresti avere fortuna e indovinare la risposta giusta,” mentre omettere una risposta “garantisce uno zero.” Di conseguenza, se i modelli vengono valutati solo in base all’accuratezza, ossia la percentuale di risposte esatte, sono incentivati ad indovinare piuttosto che ad ammettere “non lo so.”
