Kontinuirana poboljšanja koja kompanije za veštačku inteligenciju unose u svoje modele mogla bi da vas navedu na pomisao da smo konačno shvatili kako veliki jezički modeli (LLM) funkcionišu. Ali ne — LLM-ovi i dalje ostaju jedna od najmanje razumljivih tehnologija koja je ušla u masovnu upotrebu.
Kompanija Anthropic pokušava da to promeni novom tehnikom zvanom praćenje kola (circuit tracing), koja joj je pomogla da delimično ispita unutrašnji rad modela Claude 3.5 Haiku.
Šta je praćenje kola?
Praćenje kola je relativno nova tehnika koja omogućava istraživačima da prate kako model korak po korak gradi svoj odgovor — kao da pratite ožičenje u mozgu. Ona funkcioniše povezivanjem različitih komponenti modela. Anthropic je ovu tehniku iskoristio da „špijunira“ kako Claude radi iznutra.
To je otkrilo neke zaista čudne, ponekad i neljudske načine na koje model dolazi do odgovora — koje čak ni sam Claude ne bi priznao kada bi ga pitali kako je do rešenja došao.
Tri neobična ponašanja Claude modela
Ukupno je tim ispitivao 10 različitih ponašanja Claude modela. Tri su se posebno izdvojila.
Odgovori na više jezika
Jedan od slučajeva je bio prilično jednostavan — pitanje je bilo: „Šta je suprotno od malog?“ na različitim jezicima. Moglo bi se pretpostaviti da Claude ima zasebne komponente za engleski, francuski ili kineski.
Ali ne — model prvo dođe do odgovora (nešto u vezi sa „veličinom“) koristeći jezički neutralne „kola“, pa tek onda bira odgovarajuće reči u jeziku u kom je postavljeno pitanje.
Rešavanje matematike na neobičan način
Kada Claude-u postavite zadatak da sabere 36 i 59, on to ne radi na klasičan način (sabiranje jedinica, prenošenje desetica, itd.). Umesto toga, model počinje približno, dodajući „40-ak i 60-ak“ ili „57-ak i 36-ak“, i na kraju dolazi do „92-ak“.
U isto vreme, drugi deo modela se fokusira na cifre 6 i 9, shvatajući da zbir mora da se završava na 5. Kombinujući ta dva čudačka koraka, model dobija rezultat — 95.
Ali ako ga pitate kako je došao do rešenja, Claude će samouvereno opisati standardni metod koji se uči u osnovnoj školi, prikrivajući svoj pravi, neobični proces razmišljanja.
Poezija i „unapred“ odlučeni rimski završeci
Još čudnije ponašanje pojavljuje se kada Claude piše poeziju. Istraživači su mu zadali da napiše rimovani dvostih, dajući mu početak: „A rhyming couplet: He saw a carrot and had to grab it.“
Model je u tom trenutku izabrao reč „rabbit“ kao rimu dok je još obrađivao reč „grab it“. Zatim je konstruisao naredni stih sa unapred odlučenim završetkom, na kraju izbacujući: „His hunger was like a starving rabbit.“
Ovo ukazuje da LLM-ovi možda imaju više „predviđanja“ nego što se pretpostavljalo — ne formiraju odgovor samo redom, reč po reč.
Početak razumevanja unutrašnjeg rada modela
Sve u svemu, ova otkrića su značajna — dokazuju da konačno možemo, bar delimično, da vidimo kako ovi modeli funkcionišu.
Ipak, Džošua Betson (Joshua Batson), istraživač u kompaniji, priznao je za MIT da je ovo samo „vrh ledenog brega“. Čak i praćenje jednog odgovora traje satima, a pred istraživačima je još mnogo posla i nepoznanica.