OpenAI ha annunciato l’AI che porta con sé un nuovo approccio: ecco come funziona il ragionamento logico di o1
Appena pochi giorni fa avevamo parlato di Strawberry, la nuova AI di OpenAI avvolta dal mistero o, comunque, su cui ancora non si sapeva troppo.
Nel frattempo, l’azienda leader dell’intelligenza artificiale ha finalmente svelato il progetto dietro il nome in codice Strawberry, annunciando o1, un nuovo modello in grado di affrontare problemi complessi con un processo graduale.
Dopo il progresso fatto con GPT-4, l’azienda fa un decisivo passo in avanti verso l’innovazione attraverso un cambio di approccio drastico: un modello in grado di affrontare molti problemi complessi “ragionando” in modo logico, come faremmo noi.
Cosa sa fare o1 di OpenAI?
OpenAI afferma di aver addestrato il modello a passare più tempo a pensare ai problemi prima che rispondano, proprio come farebbe una persona. Attraverso la formazione, impara a perfezionare il suo processo di pensiero, provare diverse strategie e riconoscere i suoi errori.
“Proprio come un umano potrebbe pensare a lungo prima di rispondere a una domanda difficile, o1 utilizza una catena di pensiero quando cerca di risolvere un problema – spiega OpenAI sul suo blog -. Attraverso l’apprendimento per rinforzo, o1 impara ad affinare la sua catena di pensiero e a perfezionare le strategie che utilizza. Impara a riconoscere e correggere i propri errori. Impara a suddividere i passaggi complessi in passaggi più semplici. Impara a provare un approccio diverso quando quello attuale non funziona. Questo processo migliora drasticamente la capacità del modello di ragionare”.
In un esame di qualificazione per le Olimpiadi internazionali di matematica (IMO), GPT-4o ha risolto correttamente solo il 13% dei problemi, mentre il modello di ragionamento ha ottenuto l’83%, classificandosi all’89° percentile nelle domande di programmazione competitiva (Codeforces).
Per ora, OpenAI è ancora al lavoro sul nuovo modello, ma nel frattempo ha deciso di rilasciare immediatamente una preview di o1 agli utenti Plus e Team.
Il motivo della scelta lo spiega Noam Brown, uno dei ricercatori che ha lavorato allo sviluppo di o1 e delle sue capacità legate al ragionamento: “I nostri modelli o1 non sono sempre migliori di GPT-4o. Molti compiti non richiedono ragionamento, e a volte non vale la pena aspettare una risposta di o1 rispetto a una risposta rapida di GPT-4o. Una motivazione per il rilascio di o1-preview è quella di vedere quali casi d’uso diventano popolari e dove i modelli hanno bisogno di lavoro“.