Ове недеље, ОпенАИ је лансирао оно што је његов извршни директор, Сем Алтман, назвао „најпаметнијим моделом на свету“— генеративни АИ програм чије су способности наводно далеко напредније и ближе људском начину размишљања од свих претходних софтверских решења ове врсте.
Компанија је радила на овом тренутку од 12. септембра, дана за који ОпенАИ тврди да је означио нови правац ка суперинтелигенцији.
Нове верзије серије АИ модела
Тог дана, компанија је представила ране верзије серије АИ модела познатих као о1, развијених уз нове методе за које ОпенАИ верује да ће њихове програме подићи на невиђене висине.
Марк Чен, тадашњи потпредседник за истраживања у ОпенАИ-у, изјавио је неколико дана касније да је о1 фундаментално другачији од стандардног ChatGPT-a јер може „размишљати“, што се сматра кључним обележјем људске интелигенције. Недуго затим, Алтман је прогласио „почетак доба интелигенције“, у којем ће АИ помагати човечанству да решава климатске промене и колонизује свемир.
Од 5. децембра, компанија је јавности учинила доступном прву потпуну верзију модела о1, са у потпуности развијеним способностима резоновања.
Опрезни ентузијазам и критике
На први поглед, најновија реторика ОпенАИ-а делује попут маркетиншког „хајпа“ на којем је компанија изградила своју вредност од 157 милијарди долара. Јавности није познато како тачно ОпенАИ развија своју технологију chatbotova, а о1 је њихово најтајновитије издање до сада. Ова мистериозност привлачи пажњу и инвестиције.
„То је мачични трик“, рекла је недавно Емилија М. Бендер, рачунски лингвиста са Универзитета у Вашингтону и истакнути критичар АИ индустрије. Просечан корисник модела о1 можда неће приметити велику разлику у поређењу са претходним моделима, попут ГПТ-4о, за који је ОпенАИ тврдио да представља значајну надоградњу, али није донео револуционарне промене.
Са моделом о1, ситуација се променила
Међутим, са моделом о1, ситуација се променила. Неколико независних истраживача, иако мање ентузијастично, признало је да програм представља „потпуно нову игру“ и „праву иновацију“.
Чак и ако капацитети ових модела нису знатно већи од претходних, улози за ОпенАИ су значајно већи. Компанија се недавно суочила с таласом контроверзи и одлазака високопрофилних стручњака, док је напредак у индустрији АИ-а успорен.
Производи различитих компанија постали су готово идентични, а конкуренција покушава да пронађе нове начине за унапређење својих технологија.
Нова парадигма: Предикција и разумевање
Већ месецима истражујем како ОпенАИ види будућност генеративне АИ технологије. Још од овог пролећа, када је компанија промовисала своје напоре у развоју такозване мултимодалне АИ—која функционише с текстом, сликама и другим врстама медија—разговарао сам са запосленима у ОпенАИ-у, интервјуисао спољне стручњаке из области рачунарских и когнитивних наука и проучавао истраживања и саопштења компаније.
Лансирање модела о1 пружило је најјаснији увид до сада у то какву „интелигенцију“ ОпенАИ и сличне компаније верују да граде.
Компанија је била необично директна у вези с тим да је серија о1 њихова будућност. Чен, који је од тада унапређен у вишег потпредседника за истраживања, изјавио је да је ОпенАИ сада фокусиран на ову „нову парадигму“.
Алтман је касније написао да компанија „приоритизује“ о1 и његове наследнике. Верују, или желе да корисници и инвеститори верују, да су пронашли нову магију. Доба GPT-а уступа место добу резоновања.
Граница између предикције и разумевања
У пролеће сам упознао Марка Чена у реновираној фабрици мајонеза која сада служи као седиште ОпенАИ-а у Сан Франциску.
Разговарали смо преко Зоом-а неколико недеља раније, док је он предводио тим задужен за превазилажење „великих препрека“ на путу ка вештачкој општој интелигенцији (АГИ)—технологији довољно паметној да достигне или надмаши људску способност размишљања.
Желео сам да га питам о идеји која је била кључна за читаву генеративну АИ револуцију: моћ предикције.
Велики језички модели који покрећу ChatGPT и сличне chatbotove „уче“ упијањем огромних количина текста, одређивањем статистичких односа између речи и фраза, и коришћењем тих образаца за предвиђање следеће речи у реченици.
Ови програми су напредовали како су се ширили—додавањем више података за обуку, већег броја процесора и веће количине електричне енергије. Најнапреднији модели, попут ГПТ-4о, сада су у стању да пишу радне белешке, кратке приче, решавају загонетке и сумирају табеле.
Кораци изнад пуког препознавања образаца
Марк Чен тврди да „предикција води ка разумевању“—да како би завршио причу или насликао портрет, АИ модел мора да разуме основне принципе заплета, личности, израза лица и теорије боја.
Истраживања такође показују да напредни АИ модели могу развити унутрашње мреже које одговарају одређеним темама, идејама или појмовима, што се сматра кораком изнад пуког препознавања образаца. Ово објашњава зашто су многи у индустрији толико оптимистични у вези са предикцијом као основним принципом генеративне АИ технологије.
Сора:Модел за генерисање видеа
Врхунац хипотезе предвиђања могао би бити Сора, модел за генерисање видео садржаја који је ОпенАИ представио у фебруару. Овај модел креира клипове тако што предвиђа и генерише низ фрејмова.
Бил Пиблс и Тим Брукс, водећи истраживачи пројекта Сора, објаснили су да је циљ овог модела да ствара реалистичне видео записе симулирањем окружења и људи који се крећу кроз њих. (Брукс је у међувремену напустио ОпенАИ и сада ради на моделима за генерисање видео садржаја у Google ДеепМинд-у.)
На пример, за прављење видео записа фудбалске утакмице, Сора би морала не само да прикаже лопту која одскаче од копачки, већ и да развије моделе физике, тактике и размишљања играча.
„Ако успемо да унесемо све информације на свету у ове моделе, то би требало да буде довољно да они изграде моделе физике и науче да размишљају попут људи“, рекао је Пиблс. На тај начин, предвиђање би могло да доведе до интелигенције. Прагматично гледано, мултимодалност се може посматрати и као проширење извора података—од свих текстова на интернету до фотографија и видео записа.
Релетавизација разумевања реалности од стране вештачке интелигенције
Међутим, само зато што истраживачи ОпенАИ-а тврде да њихови програми разумеју свет, не значи да је то заиста случај. Генерисање видео записа мачке не значи да АИ ишта зна о мачкама—само да може да направи видео мачке.
(Чак и то понекад представља изазов: на једном демо приказу раније ове године, Сора је генерисала мачку са трећом предњом ногом.) Слично томе, „предвиђање текста не значи нужно да [модел] разуме текст“, објаснила је Мелани Мичел, научница за компјутерску науку и стручњак за АИ когницију у Институту Санта Фе.
На пример, GPT-4 је далеко бољи у прављењу акронима користећи почетна слова сваке речи у фрази него друга слова, што сугерише да модел не разуме правило иза прављења акронима, већ само имитира оно што је видео много пута.
Када GPT-4 погреши бројање слова „r“ у речи strawberry, или када Сора генерише видео чаше сока која се топи у сто, тешко је поверовати да било који од ових програма разуме феномене и идеје које стоје иза њихових излаза.
Да ли АИ може да парира људском уму?
Ове слабости довеле су до оштрих критика да АИ не може да парира људском уму—модели су само „стохастички папагаји“, како је то познато рекао Бендер, или супернапредне верзије функције „аутокомплет“, како каже критичар АИ-а Гери Маркус.
Алтман је на то одговорио објавом на друштвеним мрежама: „Ја сам стохастички папагај, а и ви сте,“ имплицирајући да је људски мозак софистицирана машина за предвиђање речи.
Алтманова тврдња је очигледно неоснована; низ кода који се покреће у дата центру није исто што и мозак. Али једнако је бесмислено одбацити генеративни АИ—технологију која редефинише образовање и уметност, било на боље или на горе—као „пуку“ статистику. Без обзира на то, неслагање замагљује важнију поенту.
ОпенАИ-ју или његовим инвеститорима није важно да ли АИ напредује ка томе да личи на људски ум, или чак да ли њихови модели „разумеју“ своје излазе—битно је само да производи настављају да се развијају.
о1: Нови приступ размишљању АИ модела
Нови модели за резоновање које је представио ОпенАИ показују драматично побољшање у решавању проблема из области кодирања, математике и науке, задобивши похвале генетичара, физичара, економиста и других стручњака. Међутим, о1 модел није осмишљен да буде бољи у предвиђању речи.
Ограничења тренутног техничког приступа
Према истраживањима које су спровели The Information, Bloomberg, TechCrunch и Reuters, водеће АИ компаније попут OpenAI, Google-a и Anthropic-a суочавају се с ограничењима тренутног техничког приступа.
Модели за предвиђање речи, попут -4, више не постају поуздано способнији, чак ни „интелигентнији“, с повећањем величине. Компаније можда остају без висококвалитетних података за обуку модела, а чак и када их имају, даљње повећавање величине модела не доноси значајна побољшања. о1 је први велики покушај индустрије да превазиђе ову препреку.
Марк Чен, с којим сам разговарао након о1 дебија у септембру, рекао ми је да су GPT 4 базирани програми имали „основни јаз који смо покушавали да решимо.“ Док су претходни модели обучавани „да буду веома добри у предвиђању онога што су људи записали у прошлости,“ о1 је другачији.
„Начин на који обучавамо ‘размишљање’ није имитацијско учење,“ објаснио је. Модел за резоновање није обучен да предвиђа људске мисли, већ да их производи, или барем симулира.
Нова ера у развоју АИ
Према мишљењу независних истраживача и тестова, о1 серија се чини „категоријално другачијом“ од старијих GPT серија. Делип Рао, истраживач са Универзитета у Пенсилванији, повезује овај модел с растућим истраживањем АИ резоновања, укључујући рад Иље Сутскевера, бившег главног научника ОпенАИ-а.
Процес обуке о1 модела подсећа на шаховски АИ који игра милион партија како би научио оптималне стратегије, или на пацова који, трчећи кроз 10.000 лавирината, развија добру стратегију за избор правца.
За разлику од модела за предвиђање речи, попут Claudea-а и ранијих верзија ChatGPT-a, који генеришу речи без паузе, о1 ради другачије. Овај модел истражује различите путеве док не пронађе најбољи.
Како је објаснио Мајк Кнуп, софтверски инжењер и суоснивач такмичења за тестирање способности АИ модела, о1 користи више времена и ресурса не само током обуке, већ и током употребе, да би претражио потенцијалне „ланце резоновања.“
Разлика између папагаја и пацова
Можемо посматрати разлику између језичких и резоновних модела кроз аналогију папагаја и пацова. ChatGPT и слични производи—„стохастички папагаји“—дизајнирани су да проналазе обрасце у огромним количинама података. о1 је „пацов“ који навигира тим статистичким моделима како би решавао проблеме.
Као у шаху: можете играти користећи меморисане потезе, али то се разликује од правог разумевања стратегије и реаговања на противника. Док језички модели уче граматику и можда нешто о свету, резоновни модели покушавају да користе ту граматику за решавање проблема.
Размишљање можда заиста представља начин да се пробије зид на који су модели предвиђања изгледа наишли; многи из технолошке индустрије свакако журе да следе пример ОпенАИ-ја. Ипак, велико ослањање на овај приступ могло би бити преурањено.
Упркос својој грандиозности, модел о1 има нека позната ограничења
Као и код модела базираних на предвиђању, лакше се сналази са задацима за које постоји више примера у подацима за обуку, како је изјавио Том Мекој, рачунски лингвиста са Универзитета Јејл, који је детаљно тестирао верзију о1 објављену у септембру.
На пример, програм боље дешифрује кодове када је одговор граматички исправна реченица, уместо насумичног скупа речи – први случај је вероватно боље заступљен у подацима за обуку. Статистичка основа ипак остаје.
Франсоа Шоле, бивши рачунски научник из Google-a, који проучава општу интелигенцију и један је од оснивача такмичења у АИ резоновању, објаснио је другачије: „Модел попут о1 … може да поставља сопствена питања како би побољшао начин на који користи оно што зна. Али и даље је ограничен на поновно примењивање онога што већ зна.“
Бројне независне анализе то потврђују
На такмичењу у резоновању вештачке интелигенције, о1 се показао бољим од GPT-4о, али је и даље имао потешкоћа са решавањем проблема који тестирају апстрактно резоновање. Истраживачи из компаније Apple недавно су открили да додавање небитних реченица математичким задацима повећава вероватноћу да о1 одговори нетачно.
На пример, када се о1 тражи да израчуна цену хлеба и мафина, додавање информације да планирате да део производа донирате – иако то не утиче на цену – збуњује модел. о1 можда не разуме стратегију шаха дубоко колико примењује широка правила и тактике које је запамтио.
Чак и ако прихватимо тврдњу да о1 разуме, уместо да имитира логику која стоји иза његових одговора, програм можда заправо заостаје за општом интелигенцијом више него што то чини ChatGPT.
ОпенАИ размишља дугорочно
Побољшања модела о1 ограничена су на специфичне области у којима се може потврдити тачност решења – попут математичких доказа или тестирања компјутерског кода на грешке. Не постоји објективан критеријум за лепу поезију, убедљиву реторику или емоционалну емпатију на основу којих би се модел обучавао.
То вероватно чини о1 штуријим од GPT-4о, како каже Рао са Универзитета у Пенсилванији. Чак је и ОпенАИ у свом блогу наговестио ово, изјављујући: „За многе уобичајене случајеве GPT-4о ће бити способнији на кратак рок.“
Међутим, ОпенАИ размишља дугорочно. Модели резоновања „истражују различите хипотезе као што би то учинио човек“, рекао је Чен. Захваљујући резоновању, о1 показује бољу способност разумевања и одговарања на питања о сликама, навео је, а пуна верзија о1 сада прихвата мултимодалне уносе.
Резоновање проблема на рачун сличан људском
Нови модели резоновања решавају проблеме „на начин сличан људском“, написао је ОпенАИ у септембру. Ако се заиста показује да повећање великих језичких модела долази до зида, овај вид резоновања изгледа као следећи корак на који се многи ОпенАИ-ови ривали такође ослањају.
Дарио Амодеи, директор компаније Anthropic, недавно је означио о1 као могући пут напред за АИ. Гугл је недавно објавио неколико експерименталних верзија модела Гемини, свог водећег модела, од којих све показују знаке „мишева у лавиринту“ – дуже одговарање на питања, детаљне ланце резоновања, побољшања у математици и кодирању. И Microsoft и кинеске компаније, попут Алибабе, истражују овај „резонујући“ приступ.
Да ли је ово пут ка суперинтелигенцији?
Ако је ово пут ка суперинтелигенцији, он је необичан. „Ово се враћа на причу о милион мајмуна који куцају милион година како би створили Шекспирова дела“, рекла је Емили Бендер. Али технологија ОпенАИ-а ефективно сабија те године у секунде.
Компанијски блог се хвали да је о1 постигао бољи резултат од већине људи на недавном тесту кодирања који је омогућавао 50 решења по проблему – али само када је о1 имао право на 10.000 покушаја. Ниједан човек не би могао да смишља толико могућности у разумном временском периоду, што је управо поента.
За ОпенАИ, неограничено време и ресурси су предност коју њихови модели имају у односу на биологију. Непуних две недеље након лансирања о1, компанија је представила планове за изградњу центара за обраду података који би захтевали снагу пет великих нуклеарних реактора – довољно за готово 3 милиона домаћинстава.
Ипак, и ови „мишеви у лавиринту“ можда ће наићи на зид. У раним тестовима ОпенАИ-а, скалирање о1-а показало је опадајући поврат: Линеарна побољшања на захтевном математичком испиту захтевала су експоненцијално повећање рачунарске снаге.
Чињеница да суперинтелигенција може користити толико електричне енергије да би захтевала глобално преуређење електроенергетских мрежа – и да такви захтеви тренутно узрокују огромне финансијске губитке – очигледно не представљају препреку ни за стартап, ни за његове инвеститоре.
Амбиција превазилази технологију. Можда испод свега има супстанце, чак и интелигенције. Али за овај спекулативни циклус, она није ни потребна да би се завртео високо очекивани точак раста.