Marx.ba
OpenAI pomalo je iznenadio sve svojim kratkim, ali slatkim događanjem na kojem je predstavio svoj najnoviji veliki jezični model imena GPT-4o. Za razliku od “običnog” GPT-4, “o” kao “omni” bi trebao moći prepoznavati zvuk, sliku i tekst u stvarnom vremenu.
U kratkom video predstavljanju, prikazane su prilično impresivne sposobnosti GPT-4o da procijeni što vidi kroz kameru pametnog telefona korisnika, pomogne u rješavanju matematičkih problema, a čak je i pomogao prilikom kodiranja.
Tokom demonstracije GPT-4o je pokazao da može odgovoriti na audio upit. Iz OpenAI su se pohvalili da obrađuje audio ulaz za samo 232 milisekunde, što bi odgovaralo vremenu ljudskog odgovora u razgovoru. Kako su pojasnili, razlog za to je u činjenici da GPT-4o ne mora transkribirati tekst, već audio odmah obrađuje neuronska mreža.
Novi model ujedno zvuči prirodnije i, ako to možemo reći, realističnije zahvaljujući ženskom glasu koji na pitanja odgovara (gotovo) u stvarnom vremenu.
No, iako je opis GPT-4o mogućnosti zvučao izuzetno dobro, demonstracija nije mogla proći bez malih tehničkih poteškoća. Naime, dok je voditelj istraživanja OpenAI Barret Zoph ispisivao matematički zadatak na papiru, ChatGPT (GPT-4o) već je odgovorio kao da je završila analiza pitanja. Na što je Zoph zbunjeno odgovorio kako mu “još nije pokazao” zadatak.
Iako je to sve simpatično djelovalo, jasno je da bi sve što je prikazano u demonstracijskom videu trebalo uzeti s rezervom. Jer, budimo realni – jedno je natjerati AI da prepozna matematički zadatak ispisan na papiru u dobro osvijetljenom studiju, a nešto potpuno drugo odgovoriti na sva pitanja tokom prijenosa uživo s kamere pametnog telefona. Barem dok i sami ne isprobamo te nove mogućnosti, prenosi Zimo.