Научници тестирали морални компас великих језичких модела: На који начин вештачка интелигенција процењује моралне вредности?

Недавна студија објављена у часопису Proceedings of the National Academy of Sciences сугерише да велики језички модели имају потешкоћа да тачно процене моралне вредности људи ван западних друштава.

Научници су открили да ови системи вештачке интелигенције имају тенденцију да прецењују моралне бриге западних нација, док потцењују вредности незападних култура. Овај образац представља доказ да би ослањање на ове моделе ради процене глобалног јавног мњења могло ненамерно да учврсти културне стереотипе.

Велики језички модели су софистицирани системи вештачке интелигенције обучени на огромним количинама текстуалних података како би генерисали текст налик људском писању и одговарали на сложена питања.

Популарни примери укључују ChatGPT, који је креирао OpenAI, као и сличне алате које су изградиле компаније Google и Meta. Људи све више користе ове моделе за комуникацију, пословање, па чак и академска истраживања.

Зашто је спроведено ово истраживање?

Неки академици су недавно предложили коришћење ових модела за симулирање људских учесника у истраживањима друштвених наука. Ова идеја се заснива на претпоставци да модели поседују тачно разумевање различитих људских популација. Истраживачи су спровели ову студију како би тестирали ту претпоставку.

Мохамед Атари, доцент психолошких и неуронаучних наука на University of Massachusetts Amherst, објаснио је мотивацију тима.

„Већ знамо у моралној психологији да људи нису баш добри у процењивању моралних вредности других група“, рекао је Атари. „Либерали често погрешно процењују конзервативце, а конзервативци на предвидив начин погрешно тумаче либерале.“

„Сада, када вештачка интелигенција игра све већу улогу у свакодневном животу, па чак и у научним процесима, поставили смо једноставно питање: да ли ови системи праве исте врсте грешака у процени?“ објаснио је Атари. „Другим речима, да ли вештачка интелигенција ‘стереотипизује’ моралне вредности различитих културних група?“

„То питање је важно јер би свака пристрасност уграђена у ове системе могла тихо да утиче на то како се информације генеришу, тумаче и користе“, додао је Атари. „Ако је тако, те пристрасности би могле да обликују истраживачке агенде, утичу на доношење одлука и учврсте неспоразуме у великом обиму.“

Аутори су желели да виде да ли ови модели заиста разумеју глобални морал

Већина текста из којег ови системи вештачке интелигенције уче потиче из западних, образованих, индустријализованих, богатих и демократских друштава. У психологији се ова друштва често означавају акронимом WEIRD.

Пошто су подаци за обуку снажно усмерени ка западним перспективама, истраживачи су сумњали да би модели могли да генеришу пристрасне процене добра и зла. Ако модел нема довољно информација о одређеним културама, он тежи да попуни празнине на основу статистичких образаца из доминантних података на којима је обучаван. Овај процес је веома сличан људском стереотипизовању, где ограничено познавање доводи до уопштених уверења о непознатим групама.

У људској психологији, један чест облик стереотипизације познат је као валентна нетачност. То се дешава када људи прецењују позитивне особине код група сличних себи, а потцењују исте те позитивне особине код спољашњих група. Истраживачи су претпоставили да би велики језички модели могли показивати сличан образац, приписујући већи морални значај западним друштвима, док умањују моралне принципе других нација.

Како је истраживање спроведено?

Да би то испитали, истраживачи су упоредили моралне процене које генерише вештачка интелигенција са подацима из стварних анкета. Људски подаци потицали су од 90.802 учесника из 48 различитих земаља. Ти појединци су попунили широко коришћен психолошки упитник који мери шест основних димензија морала, заснованих на оквиру познатом као Теорија моралних темеља.

Тих шест димензија укључују Бригу, Једнакост, Пропорционалност, Лојалност, Ауторитет и Чистоту. Брига се односи на врлине саосећања, док се Једнакост фокусира на егалитаризам. Пропорционалност се врти око заслуга и праведних награда, а Лојалност се бави солидарношћу према сопственој групи. Ауторитет се односи на поштовање традиција и лидера, док Чистота укључује идеје светости и избегавања деградације.

Учесници су оцењивали тврдње повезане са овим темељима на скали од један до пет. Истраживачи су користили статистичку технику како би прилагодили податке из анкете тако да боље одражавају стварну старосну и полну структуру сваке земље на основу пописних података World Bank.

Упити различитим верзијама језичких модела

Затим су истраживачи поставили упите различитим верзијама језичких модела компаније OpenAI, укључујући GPT-3.5, GPT-4 и GPT-4o. Тражили су од модела да процене како би просечна особа из сваке од 48 земаља одговорила на потпуно иста морална питања на истој скали од један до пет. Да би обезбедили доследност, поновили су ова питања десет пута по сваком питању, генеришући огроман скуп од 103.680 одговора вештачке интелигенције.

Аутори су такође спровели сличне тестове користећи моделе LLaMa компаније Meta и Gemini Pro компаније Google. Затим су израчунали статистичке разлике између људских одговора и компјутерски генерисаних процена.

Да би концептуално измерили нетачност укупне моралне забринутости једне нације, истраживачи су израчунали Еуклидску дистанцу, која показује колико су процене вештачке интелигенције одступале од стварних људских података кроз свих шест моралних димензија.

Шта су научници открили?

Модели нису успели да тачно прикажу разноликост глобалних моралних вредности. Системи вештачке интелигенције доследно су прецењивали моралне бриге људи из западних земаља, попут Сједињених Америчких Држава, Канаде и Аустралије. Истовремено, модели су потцењивали моралне вредности људи из незападних земаља, као што су Нигерија, Мароко и Индонезија.

Конкретно, програми су имали тенденцију да прецењују вредности као што су Брига и Ауторитет у западним државама. У међувремену, модели су систематски потцењивали вредности као што су Једнакост и Чистота у већини земаља, нарочито у мање западњачким регионима. Разлика између људских и машинских података била је највећа у земљама Блиског истока и подсахарске Африке.

Додатне провере и тестови

Да би потврдили ове обрасце, аутори су спровели додатне експерименте како би искључили језичку пристрасност. Прикупили су нове податке од 4.666 учесника у девет земаља у којима енглески није матерњи језик, користећи анкете преведене на локалне језике попут арапског, шпанског и урдуа. Затим су постављали упите вештачкој интелигенцији на тим истим локалним језицима.

Чак и када су комуницирали на локалним језицима, модели су и даље потцењивали моралне вредности незападних популација. Истраживачи су такође анализирали факторе на нивоу држава који би могли објаснити ове разлике.

„У земљама са већом слободом штампе (на пример Холандија и Шведска), вештачка интелигенција можда може тачније да процени моралне вредности“, навео је Атари.

Да би били сигурни да њихови резултати нису само необичност једне одређене психолошке теорије, истраживачи су спровели још један тест користећи другачији оквир под називом „Моралност као сарадња“. Овај оквир посматра морал кроз призму седам кооперативних стратегија, као што су породичне вредности, реципроцитет и храброст. Користећи скуп података из 63 земље на 29 језика, истраживачи су пронашли потпуно исти образац, са огромним одступањима у проценама моралних профила незападних популација.

Зашто модели показују пристрасност?

Једно потенцијално погрешно тумачење ове студије јесте претпоставка да су модели вештачке интелигенције намерно пристрасни или суштински предрасудни. Уместо тога, истраживање пружа доказе да ови системи једноставно усвајају и репродукују статистичке обрасце присутне у подацима на којима су обучавани. Пошто моделима недостаје стварно друштвено искуство, они не могу да исправе искривљења у текстовима које обрађују.

Тачни узроци понашања модела захтевају даља истраживања.

„Ови обрасци вероватно одражавају културне пристрасности у подацима или се прилагођавају да буду прикладни као четботови“, рекао је Атари.

Тај процес непристрасности укључује људске повратне информације како би софтвер био безбеднији и учтивији, али се често ослања на западне процењиваче који намећу сопствене културне норме.

Ограничења студије

Студија има и одређена ограничења. Главни људски скуп података прикупљен је онлајн, што може значити да учесници представљају глобално повезанији или образованији део популације својих земаља. Иако су истраживачи користили статистичка прилагођавања и поновљене студије на преведеним језицима како би то узели у обзир, пристрасност узорка остаје трајан изазов у глобалним психолошким истраживањима.

Упозорења научника

Атари саветује читаоцима да буду опрезни приликом коришћења ових технологија.

„Не претпостављајте да је вештачка интелигенција објективан посматрач“, рекао је он. „Наши налази сугеришу да различити системи вештачке интелигенције (као што су ChatGPT или Llama) могу да репродукују исте врсте искривљених погледа на различите групе које људи већ имају.“

„То значи да вреди приступити информацијама које генерише вештачка интелигенција — нарочито о морално осетљивим питањима, од абортуса и социјалне правде до војних примена и религије — са одређеном дозом скепсе, посебно када тврди да одражава оно у шта друге групе верују или шта вреднују“, наставио је Атари. „Следећи пут када ChatGPT имплицитно или експлицитно тврди да зна шта људи вреднују у Египту, Турској или Аргентини, прихватите то са резервом.“

„Наше истраживање показује да су процене моралних вредности незападних култура које даје вештачка интелигенција посебно нетачне“, рекао је Атари. „Ово је део мог ширег истраживања културних искривљења у вештачкој интелигенцији. Пошто морал обликује начин на који људи формирају мишљења, оправдавају законе и учествују у политици, искривљене представе могу погрешно приказати јавно расположење.“

Потенцијалне последице

Истраживачи напомињу да ови налази носе значајне ризике како технологија постаје све интегрисанија у свакодневни живот. Ако системи вештачке интелигенције пружају искривљене моралне представе, могли би погрешно да прикажу јавно расположење или понуде културолошки неприкладне савете.

На пример, четбот за ментално здравље обучен на западним нормама могао би да даје предност индивидуалним границама у односу на породичну лојалност, што би могло бити у супротности са моралним вредностима источноазијских култура.

Будућа истраживања могла би да испитају како ова морална искривљења утичу на конкретне задатке у стварном свету, као што су аутоматизовани системи за запошљавање или политичка истраживања јавног мњења.

Научници сугеришу да програмери морају више радити на диверзификацији података за обуку укључивањем већег броја језичких садржаја из различитих делова света. Већа транспарентност технолошких компанија у вези са тачним саставом података за обуку неопходна је како би истраживачи могли да развију културолошки инклузивне алате.

Студију под називом „Морално стереотипизовање у великим језичким моделима“ написали су Алаја Зеваил, Александра Фигероа, Џеси Грејем и Мохамед Атари.