ChatGPT na testu opštih pitanja izmislio 79% podataka 🤣

OpenAI se hvalio da o3 može dosegnuti ili nadmašiti rezultate doktoranada iz hemije, biologije i matematike

OpenAI najnoviji vodeći modeli, GPT o3 i o4‑mini, zamišljeni su da oponašaju ljudsku logiku. Za razliku od prethodnika, koji su se uglavnom fokusirali na tečno generisanje teksta, GPT o3 i o4‑mini trebali bi "razmišljati korak po korak". OpenAI se hvalio da o3 može dosegnuti ili nadmašiti rezultate doktoranada iz hemije, biologije i matematike. Ali izveštaj OpenAI‑ja otkriva zastrašujuće podatke za svakoga ko odgovore ChatGPT‑a uzima zdravo za gotovo.

OpenAI je otkrio da je GPT o3 halucinirao u trećini zadataka iz referentnog testa o javnim osobama — dvostruko više nego prošlogodišnji model o1. Kompaktniji o4‑mini bio je još gori, s halucinacijama u 48 % sličnih zadataka.

Kad su modeli bili na testu opštim pitanjima iz SimpleQA testa, udeo halucinacija skočio je na 51 % kod o3 i 79 % kod o4‑mini. To nije samo mala pogreška u sistemu, to je prava kriza identiteta. Pomislili biste da bi se sistem koji se reklamira kao "razumski" barem dvaput proverio pre nego što nešto izmisli, ali to jednostavno nije slučaj.

pročitajte još

#inspektor

#zadaci

Hamas OSLOBODIO 21-godišnjeg TAOCA: Mama STIGLA letom iz SAD da ga SAČEKA ❤️

Brnabić: Srbija teži da uđe u EU kao pouzdan partner ☝️

DRAMA u centru Kragujevca: DEO FASADE PAO tik pored prolaznika 😱