Витомир Јовановић: Који су домети вештачке интелигенције?

Шта би нека суверена земља могла да учини по питању развоја вештачке интелигенције? Кључан аспект би био избор адекватних података, односно дигиталног језичког корпуса који би репрезентовао културу и историју те земље, и који би читаоци могли да користе

Од када је 30. новембра 2022. OpenAI објавио генеративни модел GPT-3 који је истрениран на великом корпусу пре свега јавних лиценцираних података и доступних ресурса на интернету (првенствено из Wikipedia-е), усхићење и забринутост око коришћења вештачке интелигенције су доста спласли, пре свега што су корисници, након првог одушевљења, почели да увиђају ограничења и недостатке модела. Ту су такозване “халуцинације” и слабост у математичком резоновању прве дошле до изражаја.

Међутим, оно што је нарочито занимљиво јесте како се ова, у том тренутку компаративна предност Запада, користила у политичком дискурсу, нарочито до појаве кинеског пандана DeepSeek који има низ компаративних предности у односу на моделе OpenAI. Једна од првих “исцурелих” вести јесте разговор инжињера Гугла Блејка Лемуана који је тврдио да је вештачка интелигенција развила свест. Тада је то узнемирило јавност али свакоме ко је заиста знао како ради вештачка интелигенција ове тврдње су изгледале апсурдно. Чињеница да је због овога Лемуан добио отказ чинило је страх још оправданијим.

Други правац у истицању вештачке интелигенције јесте да је она “непристрасни алат” који може помагати у транспарентности у управљању политичким процесима и који ће довести до неке врсте благостања, а онда по другим схватањима, такође претераним, до мрачне, ауторитарне дистопије у којој ће људи бити контролисани од стране ВИ. Током разговора на различитим онлајн групама често се као аргумент појављивало „шта на то каже вештачка интелигенција“, јер је тобож “непристрасна и објективна”, иако она не може да замени експертско знање.

ВИ зависи од врсте текстова, односно доминантног научног и енциклопедијског дискурса којим се обучавање језичког модела врши. Колико је то далеко отишло говори чињеница да је Еди Рама почетком септембра представио AI министарку (четбота Деилу) како би унапредио транспарентност и смањио корупцију што је наишло на бурне реакције од стране опозиционих посланика у парламенту који су у овоме видели “пропагандне фантазије”.

Еди Рама је изјавио да је Деила у међувремену “затруднела и да ће родити 83 ВИ асистента за сваког посланика социјалистичке партије” како би им помагала али како би их и надзирала (овде). Све ово отвара потребу да свако од нас као грађанин буде боље упознат са тим како заправо функционише ВИ (првентствено четботови) како би се спречиле потенцијалне злоупотребе и манипулације.

Начин рада

Језички модели које користи ChatGPT (фирма OpenAI) и DeepSeeк (поред њих ту су Gemini, Фејсбукови модели, Клауд, итд.) развијени су као посебна подобласт машинског учења, у оквиру обраде природног језика (Natural Language Processing – NLP). Само машинско учење дуго се користи у различитим областима људског деловања, а у суштини представља алгоритамски начин да се дође до апроксимације функције која најбоље описује везу између улазних и излазних података.

Приликом узимања кредита у банци, математички модел на основу историјских података о претходним корисницима (улазни подаци о нпр. нивоу образовања, дужини радног стажа, висини примања) и њиховој успешности у враћању кредита (излазни подаци у виду да ли јесте или није вратио кредит) – избацује вероватноћу да сваки нови корисник са његовим особинама успешно врати кредит.

Речи представљене као вектори (низови бројева)

Револуција у NLP-у била је могућност да се свака реч изрази уз помоћ низа бројева (тзв. угњеждених вектора), тако што су креирани различити модели који су предвиђали да се две речи налазе једна поред друге у неком језичком корпусу, односно, модели су предвиђали одређену реч на основу контекста (околних речи) или су предвиђали контекстуалне речи на основу централне речи.

Параметри ових неуралних мрежа чинили су заправо векторе за сваку реч. Током тренинга који захтева изузетно јаке рачунаре, модел подешава тежине у векторском простору тако да речи које се често појављују у сличним контекстима добијају сличне векторе. Тако је свака реч представљена помоћу низа бројева.

Ово је довело до феноменалног увида да операције на векторима ових речи доводе до значењског смисла речи, па ако од вектора речи “краљ” одузмемо вектор “мушкарац” и додамо вектор “жена” добићемо вектор који је најсличнији вектору “краљица” („краљ“ – „мушкарац“ + „жена“ ≈ „краљица“). На тај начин је показано да вектори у неком вишедимензионалном простору представљају пренос значења вишег реда (нашег смисаоног, људског знања) на ограничени димензионални систем машине, систем нижег реда који имитира људско знање. Такође машина постаје способна да разуме контекст онога што јој се шаље захваљујући механизмима самопажње код улазног промпта (упита).

Кодирање, илустрација (Фото: Pixabay/Pexels)

Ови вектори су даље коришћени за развој језичких модела који смо сви почели да користимо. Улазни упит (prompt, оно што куцамо у нпр. ChatGPT или DeepSeek) се претвара у вектор и он улази у велику неуралну мрежу од више милијарди неурона (сваки неурон треба схватити као малу функцију која прима неку бројчану вредност и избацује неку бројчану вредност) где се тренирање састојало у томе да модел адекватно препозна следећу реч у корпусу текстова који му је дат за тренинг.

Тако су заправо језички модели само аутомати који су истренирани да избацују следећу највероватнију реч на основу текстова на којима су тренирани. Када модел избаци највероватнију реч, онда се цела та нова фраза са претходно предвиђеном речи враћа у модел и модел онда избацује следећу највероватнију реч, имајући у виду претходне две. То се дешава до неке границе која је одређена за дужину одговора.

Чак је за напредније кориснике могуће подешавати “температуру” модела, односно да ли ће модел враћати увек највероватнију реч (што је пожељно код конвергентних задатака са само једним решењем) или ће можда имати већи распон од вероватних речи од којих ће насумично враћати неку од њих чиме текст постаје “креативнији”, “неконвенционалнији”.

Халуцинације које би се јавиле при најмањој температури (најконвергентнијем тексту који увек враћа највероватнију реч) заправо нису некакве грешке модела или нешто што се спорадично дешава, већ су последица самог начина на који је модел истрениран и можда ограничења да за неке ретке речи модел није имао довољно адекватног језичког корпуса.

Али ту постоји један важан слој који се често не спомиње, а то је да сви одговори који језички модел пружа, бивају послати специјално запосленима, тзв. “анотарима” који те одговоре означавају на одређеној скали као пожељне или непожељне тако да се модел од стране непосредне људске интервенције “подешава” ка ономе што дата фирма која обучава дати модел сматра пожељним или непожељним приликом самог тренинга (ова компонента се назива учење поткрепљивањем).

Наравно, ту су увек укључене све противзаконите радње као непожељне и све оно што може чинити штету другом људском бићу али је питање да ли се и одређене историјске и политичке теме исто тако мање или више фаворизују. Поред тога што зависи од самог корпуса текстова на којима се тренира и који сами по себи могу бити пристрасни, језички модел зависи додатно од инструкција које анотатори имају, тако да се не може рећи да је вештачка интелигенција у потпуности независна и објективна према научним или common sense критеријумима (овде).

Политичко-иделошки слој

Као што смо видели, појам сингуларности и плашење њиме, у смислу да се вештачка интелигенција може отргнути контроли након што пређе одређену тачку у којој ће надмашити човека у способностима и постати аутономан систем који ће гледати своје интересе – није основан. Али ако јој дате извод неког текста који сте писали и тражите јој да настави тај текст, она ће бити способна да то изведе имитирајући стил текста који је видела, што може личити да неку врсту интелигенције, премда ће тај текст суштински бити неупотребљив и мораће бити прерађен од стране човека.

Страх од сингуларности је довео тога да се друштвеним мрежама ширио клип како су се роботи у Кини самоактивирали и постали насилни тим интензитетом да су се у утицајним медијима нашли званични деманти како се ради о лажној вести (в. овде). Тако чак неки аутори (нпр. Ботстром) сматрају да највећа претња човечанству није нуклеарни рат или климатске промене, већ неконтролисана вештачка интелигенција која ће доспети до суперинтелигенције (сингуларности).

Сама сингуларност делује као фикција за нешто што је у принципу језички аутомат и можда само као тражење публицитета код још недовољно познате области. Ипак, језички аутомат успева да према количини знања које поседује и начином на који продукује исказе, у много чему надмаши у неким стварима чак и експерте.

Паметни телефон, илустрација (Фото: rmartinr on Pixabay)

Много оправданији разлог за страх јесте чињеница да адекватне рачунаре за тренирање модела имају само три компаније (Amazon, Google, Microsoft). Њих имају и друге компаније, али ове три компаније су развиле платформе које изнајмљују рачунаре и тако стичу супремацију и главну добит од развоја ВИ. Када то повежемо са податком који говори колико је сам тренинг модела скуп, та неједнакост постаје израженија и привилегија за тренирањем великих језичких модела јесте ограничена на мали број компанија.

Кинески DeepSeek је покушао да утиче на ово из разлога јер ни сам није имао приступ тако јаким машинама. Компанија је привукла глобалну пажњу својим моделима као што су DeepSeek V3 и DeepSeek-R1, који су се истакли по перформансама и ефикасности у односу на скупље и затворене системе као што су GPT-4 и Gemini. Такође, DeepSeek је познат по томе што је развио своје моделе уз значајно нижу цену тренинга, око 294.000 долара за R1 модел, што је далеко мање у поређењу са стотинама милиона долара које су потрошили конкуренти. То је урадио кроз иновације на плану алгоритама.

И треће, на појединачном нивоу, ВИ је турбина за експертски мозак кога може још убрзати, јер зависи од квалитета постављеног питања, што може направити само додатну разлику између постигнућа оних са мање или више образовања.

Даљи развој ВИ

Шта би нека суверена земља могла да учини по питању развоја ВИ? Под условом да постоје услови за улагање у рачунаре велике снаге, кључан аспект би био избор адекватних података, односно дигиталног језичког корпуса који би репрезентовао културу те земље и историју и који би читаоци могли да користе.

Такође, могуће је развити локалне системе са овим већ истренираним моделима а који ће моћи да користе поверљиве податке без тога да подаци иду на туђе сервере. Уз аутоматизацију процеса тренирања, ВИ ће се пре развијати ка репрезентацији одређеног специфичног знања, односно одређеног културног и језичког корпуса, него што ће се развијати по дубини.

„Chat GPT“, четбот заснован на вештачкој интелигенцији (Фото: Emiliano Vittoriosi on Unslpash)

Већ сада постоје специјализовани модели који су истренирани само на научним текстовима и представљају алат који научник може користити за симболичну месечну надокнаду а који могу невероватно убрзати процес претраге и цитирања научних чланака. Исто тако можемо замислити моделе који су истренирани на корпусу српске Википедије и других дигитализованих садржаја на српском језику који могу значајно унапредити претраге, сумирања и закључивања из различитих текстова.

Више није питање да ли хоћемо или нећемо да је користимо, већ да ли знамо да је употребимо за оно у чему може да нам помогне. Као што више није питање да ли неко хоће или неће да користи интернет, тако више није питање да ли хоћемо да живимо са или без ВИ, већ како да она заузме баш оно место које јој припада. Исто тако је важно да сваки грађанин зна како она заправо ради како не би био подложан тенденцијама да се њоме манипулише у различите сврхе.

Начин рада

Политичко-иделошки слој

Даљи развој ВИ

Компас правих вредности