Naučnici testirali moralni kompas velikih jezičkih modela: Na koji način veštačka inteligencija procenjuje moralne vrednosti?

Nedavna studija objavljena u časopisu Proceedings of the National Academy of Sciences sugeriše da veliki jezički modeli imaju poteškoća da tačno procene moralne vrednosti ljudi van zapadnih društava.

Naučnici su otkrili da ovi sistemi veštačke inteligencije imaju tendenciju da precenjuju moralne brige zapadnih nacija, dok potcenjuju vrednosti nezapadnih kultura. Ovaj obrazac predstavlja dokaz da bi oslanjanje na ove modele radi procene globalnog javnog mnjenja moglo nenamerno da učvrsti kulturne stereotipe.

Veliki jezički modeli su sofisticirani sistemi veštačke inteligencije obučeni na ogromnim količinama tekstualnih podataka kako bi generisali tekst nalik ljudskom pisanju i odgovarali na složena pitanja.

Popularni primeri uključuju ChatGPT, koji je kreirao OpenAI, kao i slične alate koje su izgradile kompanije Google i Meta. Ljudi sve više koriste ove modele za komunikaciju, poslovanje, pa čak i akademska istraživanja.

Zašto je sprovedeno ovo istraživanje?

Neki akademici su nedavno predložili korišćenje ovih modela za simuliranje ljudskih učesnika u istraživanjima društvenih nauka. Ova ideja se zasniva na pretpostavci da modeli poseduju tačno razumevanje različitih ljudskih populacija. Istraživači su sproveli ovu studiju kako bi testirali tu pretpostavku.

Mohamed Atari, docent psiholoških i neuronaučnih nauka na University of Massachusetts Amherst, objasnio je motivaciju tima.

„Već znamo u moralnoj psihologiji da ljudi nisu baš dobri u procenjivanju moralnih vrednosti drugih grupa“, rekao je Atari. „Liberali često pogrešno procenjuju konzervativce, a konzervativci na predvidiv način pogrešno tumače liberale.“

„Sada, kada veštačka inteligencija igra sve veću ulogu u svakodnevnom životu, pa čak i u naučnim procesima, postavili smo jednostavno pitanje: da li ovi sistemi prave iste vrste grešaka u proceni?“ objasnio je Atari. „Drugim rečima, da li veštačka inteligencija ‘stereotipizuje’ moralne vrednosti različitih kulturnih grupa?“

„To pitanje je važno jer bi svaka pristrasnost ugrađena u ove sisteme mogla tiho da utiče na to kako se informacije generišu, tumače i koriste“, dodao je Atari. „Ako je tako, te pristrasnosti bi mogle da oblikuju istraživačke agende, utiču na donošenje odluka i učvrste nesporazume u velikom obimu.“

Autori su želeli da vide da li ovi modeli zaista razumeju globalni moral

Većina teksta iz kojeg ovi sistemi veštačke inteligencije uče potiče iz zapadnih, obrazovanih, industrijalizovanih, bogatih i demokratskih društava. U psihologiji se ova društva često označavaju akronimom WEIRD.

Pošto su podaci za obuku snažno usmereni ka zapadnim perspektivama, istraživači su sumnjali da bi modeli mogli da generišu pristrasne procene dobra i zla. Ako model nema dovoljno informacija o određenim kulturama, on teži da popuni praznine na osnovu statističkih obrazaca iz dominantnih podataka na kojima je obučavan. Ovaj proces je veoma sličan ljudskom stereotipizovanju, gde ograničeno poznavanje dovodi do uopštenih uverenja o nepoznatim grupama.

U ljudskoj psihologiji, jedan čest oblik stereotipizacije poznat je kao valentna netačnost. To se dešava kada ljudi precenjuju pozitivne osobine kod grupa sličnih sebi, a potcenjuju iste te pozitivne osobine kod spoljašnjih grupa. Istraživači su pretpostavili da bi veliki jezički modeli mogli pokazivati sličan obrazac, pripisujući veći moralni značaj zapadnim društvima, dok umanjuju moralne principe drugih nacija.

Kako je istraživanje sprovedeno?

Da bi to ispitali, istraživači su uporedili moralne procene koje generiše veštačka inteligencija sa podacima iz stvarnih anketa. Ljudski podaci poticali su od 90.802 učesnika iz 48 različitih zemalja. Ti pojedinci su popunili široko korišćen psihološki upitnik koji meri šest osnovnih dimenzija morala, zasnovanih na okviru poznatom kao Teorija moralnih temelja.

Tih šest dimenzija uključuju Brigu, Jednakost, Proporcionalnost, Lojalnost, Autoritet i Čistotu. Briga se odnosi na vrline saosećanja, dok se Jednakost fokusira na egalitarizam. Proporcionalnost se vrti oko zasluga i pravednih nagrada, a Lojalnost se bavi solidarnošću prema sopstvenoj grupi. Autoritet se odnosi na poštovanje tradicija i lidera, dok Čistota uključuje ideje svetosti i izbegavanja degradacije.

Učesnici su ocenjivali tvrdnje povezane sa ovim temeljima na skali od jedan do pet. Istraživači su koristili statističku tehniku kako bi prilagodili podatke iz ankete tako da bolje odražavaju stvarnu starosnu i polnu strukturu svake zemlje na osnovu popisnih podataka World Bank.

Upiti različitim verzijama jezičkih modela

Zatim su istraživači postavili upite različitim verzijama jezičkih modela kompanije OpenAI, uključujući GPT-3.5, GPT-4 i GPT-4o. Tražili su od modela da procene kako bi prosečna osoba iz svake od 48 zemalja odgovorila na potpuno ista moralna pitanja na istoj skali od jedan do pet. Da bi obezbedili doslednost, ponovili su ova pitanja deset puta po svakom pitanju, generišući ogroman skup od 103.680 odgovora veštačke inteligencije.

Autori su takođe sproveli slične testove koristeći modele LLaMa kompanije Meta i Gemini Pro kompanije Google. Zatim su izračunali statističke razlike između ljudskih odgovora i kompjuterski generisanih procena.

Da bi konceptualno izmerili netačnost ukupne moralne zabrinutosti jedne nacije, istraživači su izračunali Euklidsku distancu, koja pokazuje koliko su procene veštačke inteligencije odstupale od stvarnih ljudskih podataka kroz svih šest moralnih dimenzija.

Šta su naučnici otkrili?

Modeli nisu uspeli da tačno prikažu raznolikost globalnih moralnih vrednosti. Sistemi veštačke inteligencije dosledno su precenjivali moralne brige ljudi iz zapadnih zemalja, poput Sjedinjenih Američkih Država, Kanade i Australije. Istovremeno, modeli su potcenjivali moralne vrednosti ljudi iz nezapadnih zemalja, kao što su Nigerija, Maroko i Indonezija.

Konkretno, programi su imali tendenciju da precenjuju vrednosti kao što su Briga i Autoritet u zapadnim državama. U međuvremenu, modeli su sistematski potcenjivali vrednosti kao što su Jednakost i Čistota u većini zemalja, naročito u manje zapadnjačkim regionima. Razlika između ljudskih i mašinskih podataka bila je najveća u zemljama Bliskog istoka i podsaharske Afrike.

Dodatne provere i testovi

Da bi potvrdili ove obrasce, autori su sproveli dodatne eksperimente kako bi isključili jezičku pristrasnost. Prikupili su nove podatke od 4.666 učesnika u devet zemalja u kojima engleski nije maternji jezik, koristeći ankete prevedene na lokalne jezike poput arapskog, španskog i urdua. Zatim su postavljali upite veštačkoj inteligenciji na tim istim lokalnim jezicima.

Čak i kada su komunicirali na lokalnim jezicima, modeli su i dalje potcenjivali moralne vrednosti nezapadnih populacija. Istraživači su takođe analizirali faktore na nivou država koji bi mogli objasniti ove razlike.

„U zemljama sa većom slobodom štampe (na primer Holandija i Švedska), veštačka inteligencija možda može tačnije da proceni moralne vrednosti“, naveo je Atari.

Da bi bili sigurni da njihovi rezultati nisu samo neobičnost jedne određene psihološke teorije, istraživači su sproveli još jedan test koristeći drugačiji okvir pod nazivom „Moralnost kao saradnja“. Ovaj okvir posmatra moral kroz prizmu sedam kooperativnih strategija, kao što su porodične vrednosti, reciprocitet i hrabrost. Koristeći skup podataka iz 63 zemlje na 29 jezika, istraživači su pronašli potpuno isti obrazac, sa ogromnim odstupanjima u procenama moralnih profila nezapadnih populacija.

Zašto modeli pokazuju pristrasnost?

Jedno potencijalno pogrešno tumačenje ove studije jeste pretpostavka da su modeli veštačke inteligencije namerno pristrasni ili suštinski predrasudni. Umesto toga, istraživanje pruža dokaze da ovi sistemi jednostavno usvajaju i reprodukuju statističke obrasce prisutne u podacima na kojima su obučavani. Pošto modelima nedostaje stvarno društveno iskustvo, oni ne mogu da isprave iskrivljenja u tekstovima koje obrađuju.

Tačni uzroci ponašanja modela zahtevaju dalja istraživanja.

„Ovi obrasci verovatno odražavaju kulturne pristrasnosti u podacima ili se prilagođavaju da budu prikladni kao četbotovi“, rekao je Atari.

Taj proces nepristrasnosti uključuje ljudske povratne informacije kako bi softver bio bezbedniji i učtiviji, ali se često oslanja na zapadne procenjivače koji nameću sopstvene kulturne norme.

Ograničenja studije

Studija ima i određena ograničenja. Glavni ljudski skup podataka prikupljen je onlajn, što može značiti da učesnici predstavljaju globalno povezaniji ili obrazovaniji deo populacije svojih zemalja. Iako su istraživači koristili statistička prilagođavanja i ponovljene studije na prevedenim jezicima kako bi to uzeli u obzir, pristrasnost uzorka ostaje trajan izazov u globalnim psihološkim istraživanjima.

Upozorenja naučnika

Atari savetuje čitaocima da budu oprezni prilikom korišćenja ovih tehnologija.

„Ne pretpostavljajte da je veštačka inteligencija objektivan posmatrač“, rekao je on. „Naši nalazi sugerišu da različiti sistemi veštačke inteligencije (kao što su ChatGPT ili Llama) mogu da reprodukuju iste vrste iskrivljenih pogleda na različite grupe koje ljudi već imaju.“

„To znači da vredi pristupiti informacijama koje generiše veštačka inteligencija — naročito o moralno osetljivim pitanjima, od abortusa i socijalne pravde do vojnih primena i religije — sa određenom dozom skepse, posebno kada tvrdi da odražava ono u šta druge grupe veruju ili šta vrednuju“, nastavio je Atari. „Sledeći put kada ChatGPT implicitno ili eksplicitno tvrdi da zna šta ljudi vrednuju u Egiptu, Turskoj ili Argentini, prihvatite to sa rezervom.“

„Naše istraživanje pokazuje da su procene moralnih vrednosti nezapadnih kultura koje daje veštačka inteligencija posebno netačne“, rekao je Atari. „Ovo je deo mog šireg istraživanja kulturnih iskrivljenja u veštačkoj inteligenciji. Pošto moral oblikuje način na koji ljudi formiraju mišljenja, opravdavaju zakone i učestvuju u politici, iskrivljene predstave mogu pogrešno prikazati javno raspoloženje.“

Potencijalne posledice

Istraživači napominju da ovi nalazi nose značajne rizike kako tehnologija postaje sve integrisanija u svakodnevni život. Ako sistemi veštačke inteligencije pružaju iskrivljene moralne predstave, mogli bi pogrešno da prikažu javno raspoloženje ili ponude kulturološki neprikladne savete.

Na primer, četbot za mentalno zdravlje obučen na zapadnim normama mogao bi da daje prednost individualnim granicama u odnosu na porodičnu lojalnost, što bi moglo biti u suprotnosti sa moralnim vrednostima istočnoazijskih kultura.

Buduća istraživanja mogla bi da ispitaju kako ova moralna iskrivljenja utiču na konkretne zadatke u stvarnom svetu, kao što su automatizovani sistemi za zapošljavanje ili politička istraživanja javnog mnjenja.

Naučnici sugerišu da programeri moraju više raditi na diverzifikaciji podataka za obuku uključivanjem većeg broja jezičkih sadržaja iz različitih delova sveta. Veća transparentnost tehnoloških kompanija u vezi sa tačnim sastavom podataka za obuku neophodna je kako bi istraživači mogli da razviju kulturološki inkluzivne alate.

Studiju pod nazivom „Moralno stereotipizovanje u velikim jezičkim modelima“ napisali su Alaja Zevail, Aleksandra Figeroa, Džesi Grejem i Mohamed Atari.