Anthropic: alcuni modelli Claude ora gestiscono conversazioni dannose o abusive.
Nuove funzionalità di Claude: un cambiamento significativo nell’interazione con l’IA
Anthropic ha recentemente annunciato nuove funzionalità per i suoi modelli di intelligenza artificiale, permettendo a Claude di terminare le conversazioni in casi rari e estremi di interazioni dannose o abusive da parte degli utenti. Interessante notare che l’azienda sottolinea di non agire per tutelare gli utenti umani, ma piuttosto per proteggere il modello di IA stesso.
La posizione di Anthropic sui modelli di IA
Per chiarire la posizione dell’azienda, Anthropic non sostiene che i suoi modelli di Claude siano senzienti o possano subire danni a causa delle conversazioni con gli utenti. Secondo le loro dichiarazioni, rimangono “altamente incerti” riguardo allo stato morale potenziale di Claude e di altri modelli di linguaggio avanzati, sia ora che in futuro. La compagnia ha lanciato un programma volto a studiare il “benessere del modello” e afferma di adottare un approccio precauzionale, cercando di identificare e implementare interventi a basso costo per mitigare i rischi legati al benessere del modello.
