Silicon Valley investe massicciamente negli “ambienti” per formare agenti di intelligenza artificiale.
La questione aperta riguardo agli ambienti RL è se la tecnica possa scalare come i metodi di addestramento IA precedenti. Il reinforcement learning ha alimentato alcuni dei maggiori progressi in IA nell’ultimo anno, inclusi modelli come o1 di OpenAI e Claude Opus 4 di Anthropic. Queste sono conquiste importanti poiché i metodi precedentemente usati per migliorare i modelli AI stanno mostrando ritorni decrescenti.
Gli ambienti sono parte della scommessa più ampia dei laboratori AI sull’RL, che molti credono continuerà a guidare i progressi mentre aggiungono più dati e risorse computazionali al processo. Alcuni ricercatori di OpenAI dietro o1 hanno precedentemente dichiarato a TechCrunch che l’azienda ha investito in modelli di ragionamento AI proprio perché pensavano che scalassero bene.
La migliore strategia per scalare il reinforcement learning rimane poco chiara, ma gli ambienti sembrano rappresentare un contendente promettente. Invece di limitarsi a premiare i chatbot per le risposte testuali, questi ambienti consentono agli agenti di operare in simulazioni con strumenti e computer a loro disposizione. Ciò richiede più risorse, ma potrebbe essere molto più redditizio.
