OpenAI najnoviji vodeći modeli, GPT o3 i o4‑mini, zamišljeni su da oponašaju ljudsku logiku. Za razliku od prethodnika, koji su se uglavnom fokusirali na tečno generisanje teksta, GPT o3 i o4‑mini trebali bi "razmišljati korak po korak". OpenAI se hvalio da o3 može dosegnuti ili nadmašiti rezultate doktoranada iz hemije, biologije i matematike. Ali izveštaj OpenAI‑ja otkriva zastrašujuće podatke za svakoga ko odgovore ChatGPT‑a uzima zdravo za gotovo.
OpenAI je otkrio da je GPT o3 halucinirao u trećini zadataka iz referentnog testa o javnim osobama — dvostruko više nego prošlogodišnji model o1. Kompaktniji o4‑mini bio je još gori, s halucinacijama u 48 % sličnih zadataka.
Kad su modeli bili na testu opštim pitanjima iz SimpleQA testa, udeo halucinacija skočio je na 51 % kod o3 i 79 % kod o4‑mini. To nije samo mala pogreška u sistemu, to je prava kriza identiteta. Pomislili biste da bi se sistem koji se reklamira kao "razumski" barem dvaput proverio pre nego što nešto izmisli, ali to jednostavno nije slučaj.
Brnabić: Srbija teži da uđe u EU kao pouzdan partner ☝️
Autor: Index.hr