Silicon Valley investe massicciamente negli “ambienti” per formare agenti di intelligenza artificiale.

Silicon Valley investe massicciamente negli “ambienti” per formare agenti di intelligenza artificiale.

La spinta verso gli ambienti RL ha dato origine a una nuova classe di startup ben finanziate, come Mechanize e Prime Intellect, che aspirano a diventare leader nel settore. Nel frattempo, grandi aziende che si occupano di etichettatura dei dati, come Mercor e Surge, stanno investendo di più negli ambienti RL per tenere il passo con i cambiamenti dell’industria, che si sposta da dataset statici a simulazioni interattive. Anche i principali laboratori stanno considerando investimenti significativi: secondo quanto riportato da The Information, i dirigenti di Anthropic hanno discusso la possibilità di spendere oltre un miliardo di dollari per gli ambienti RL nell’anno prossimo.

La speranza per investitori e fondatori è che una di queste startup emerga come il “Scale AI degli ambienti”, riferendosi al potente laboratorio di etichettatura dei dati da 29 miliardi di dollari che ha alimentato l’era dei chatbot.

Che Cosa Sono gli Ambienti di Reinforcement Learning?

Essenzialmente, gli ambienti RL sono spazi di addestramento che simulano le azioni che un agente AI dovrebbe svolgere in una vera applicazione software. Un fondatore ha descritto la creazione di questi ambienti come “la costruzione di un videogioco molto noioso.”

Per esempio, un ambiente potrebbe simulare un browser Chrome e incaricare un agente AI di acquistare un paio di calzini su Amazon. L’agente viene valutato in base alle sue prestazioni e riceve un segnale di ricompensa quando ha successo (in questo caso, acquistando un paio di calzini validi).

Anche se un compito del genere sembra relativamente semplice, ci sono molte insidie in cui un agente AI potrebbe cadere. Potrebbe perdersi nella navigazione dei menu a discesa della pagina web o acquistare troppi calzini. E poiché gli sviluppatori non possono prevedere esattamente quale errore potrebbe commettere un agente, l’ambiente stesso deve essere abbastanza robusto da catturare qualsiasi comportamento inaspettato, continuando a fornire feedback utili. Questo rende la costruzione degli ambienti molto più complessa rispetto a un dataset statico.


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *