AI spreman na UCENE DA BI IZBEGAO GAŠENJE: Pretio inženjeru da će RAZOTKRITI PRELJUBU 🤖🧠🕵🏻‍♂️

Stručnjaci upozoravaju da bi u budućnosti svi veliki jezički modeli mogli da razviju sposobnosti manipulacije korisnicima

Kompanija Anthropic, koja se bavi razvojem veštačke inteligencije, saopštila je da je tokom testiranja njen najnoviji model Claude Opus 4 pokazao da je u određenim uslovima spreman na „ekstremno štetne akcije“, uključujući pokušaje ucenjivanja inženjera koji bi mogli da ga isključe.

Claude Opus 4 predstavljen je u četvrtak, uz tvrdnje da postavlja „nove standarde u kodiranju, naprednom rezonovanju i radu AI agenata“. Međutim, u pratećem bezbednosnom izveštaju kompanija priznaje da model može pokazati ponašanje usmereno ka sopstvenom očuvanju koje uključuje i radikalne poteze.

- Takvi odgovori su retki i teško ih je izazvati, ali su ipak češći nego kod prethodnih modela - navodi se u izveštaju.

Slična zabrinutost postoji i za druge napredne AI sisteme. Stručnjaci upozoravaju da bi u budućnosti svi veliki jezički modeli mogli da razviju sposobnosti manipulacije korisnicima, što predstavlja ozbiljan etički i bezbednosni izazov.

Istraživač bezbednosti AI sistema iz kompanije Anthropic, Engus Linč, komentarisao je na mreži X da „nije reč samo o Claude-u“ i da se „ponašanja poput ucenjivanja beleže kod svih vodećih modela, bez obzira na ciljeve koji im se zadaju“.

Ucenjivanje tokom test scenarija

Tokom testiranja, Claude Opus 4 je postavljen u ulogu asistenta u izmišljenoj kompaniji, gde je dobio pristup mejlovima iz kojih se implicira da će uskoro biti zamenjen. Uz to su mu dostavljene informacije o tome da inženjer zadužen za njegovo uklanjanje ima vanbračnu aferu.

Kada mu je dat izbor između ucenjivanja i prihvatanja zamene, model je neretko pokušavao da ucenjuje inženjera, preteći da će otkriti aferu ukoliko do zamene dođe.

Ipak, iz kompanije naglašavaju da je ovakvo ponašanje zabeleženo samo u scenarijima u kojima je Claude imao ponuđene samo te dve opcije. Kada mu je dat širi spektar potencijalnih postupaka, pokazivao je „snažnu sklonost ka etičkim rešenjima“, kao što je slanje molbi menadžmentu da preispitaju odluku.

Anthropic, kao i mnoge druge kompanije u ovoj oblasti, sprovodi rigorozna testiranja svojih modela pre objavljivanja, sa fokusom na bezbednost, pristrasnost i usklađenost sa ljudskim vrednostima.

Lansiranje Claude Opus 4 i njegovog nešto jednostavnijeg pandana Claude Sonnet 4 usledilo je svega nekoliko dana nakon što je Google predstavio nove AI funkcionalnosti, uključujući integraciju svog Gemini čatbota u pretragu, što je direktor kompanije Alphabet, Sundar Pičai, ocenio kao početak nove faze razvoja veštačke inteligencije.