U svetu veštačke inteligencije godinama je važilo nepisano pravilo: što je model veći i napredniji, to zahteva skuplji hardver, snažnije grafičke kartice i pristup cloud infrastrukturi. Međutim, istraživači iz kompanije Microsoft nedavno su otvorili izvorni kod jednog projekta koji ozbiljno dovodi u pitanje to pravilo.
Reč je o novom inferencijskom okviru pod nazivom BitNet – tehnologiji koja omogućava pokretanje jezičkih modela od čak 100 milijardi parametara na običnom procesoru.
Drugim rečima, bez GPU-a, bez skupih serverskih konfiguracija i bez cloud infrastrukture vredne desetine hiljada dolara. Teoretski, takav model može da radi čak i na običnom laptopu, i to brzinom koja je približna brzini čitanja čoveka.
Za one koji prate razvoj veštačke inteligencije, ovo je gotovo radikalna promena paradigme.
Zašto su veliki AI modeli do sada zahtevali skupu opremu?
Veliki jezički modeli (LLM) poput ChatGPT ili LLaMA zasnivaju se na ogromnom broju parametara – često desetinama ili stotinama milijardi. Ti parametri predstavljaju matematičke težine koje model koristi da bi razumeo i generisao tekst.
Tradicionalno, ove težine se čuvaju u 32-bitnim ili 16-bitnim floating-point brojevima. To znači da svaka pojedinačna vrednost zauzima značajnu količinu memorije, a obrada takvih podataka zahteva složene matematičke operacije koje se najefikasnije izvršavaju na grafičkim karticama.
Zbog toga su moderni AI sistemi gotovo uvek vezani za moćne GPU klastere i cloud infrastrukturu.
Tu na scenu stupa BitNet.
Ternarne težine – minimalizam koji menja pravila igre
Ključna inovacija BitNet-a leži u načinu na koji model predstavlja svoje težine.
Umesto klasičnih decimalnih vrednosti, BitNet koristi takozvane ternarne težine – svaka vrednost može biti samo:
-
-1
-
0
-
+1
Ovaj pristup znači da se svaka težina može zapisati u svega 1,58 bita. Za poređenje, standardni modeli koriste 16 ili 32 bita.
Na prvi pogled to deluje kao drastično pojednostavljenje koje bi moralo da uništi preciznost modela. Međutim, istraživanja pokazuju da se performanse gotovo ne menjaju.
U praksi, to znači da se ogromna količina podataka uklanja bez ozbiljnog gubitka kvaliteta.
Impresivne performanse na običnom procesoru
Rezultati koje su istraživači objavili pokazuju da ovakav pristup donosi ozbiljne prednosti.
Model od 100 milijardi parametara može da radi na jednom CPU-u brzinom od 5 do 7 tokena u sekundi, što je približno brzini kojom prosečan čovek čita tekst.
Pored toga, BitNet pokazuje i značajna poboljšanja u odnosu na postojeće alate za lokalno pokretanje modela, poput llama.cpp.
Testiranja na x86 procesorima pokazala su:
-
2,37 do 6,17 puta brže izvršavanje
-
82% manju potrošnju energije
-
16 do 32 puta manju potrošnju memorije
Na ARM arhitekturi – kakvu koriste moderni laptopovi i mobilni uređaji – ubrzanje se kreće između 1,37 i 5,07 puta.
Drugim rečima, tehnologija je jednako relevantna i za desktop računare i za prenosive uređaje.
Minimalan pad tačnosti
Možda najzanimljiviji deo cele priče jeste činjenica da drastična kompresija modela gotovo da ne utiče na kvalitet rezultata.
Flagship model projekta, nazvan BitNet b1.58 2B4T, treniran je na čak 4 triliona tokena. Na standardnim AI benchmark testovima pokazuje rezultate koji su konkurentni modelima iste veličine koji koriste punu preciznost.
To znači da kvantizacija – proces smanjivanja broja bitova za predstavljanje podataka – u ovom slučaju ne uništava kvalitet modela, već samo eliminiše višak koji zapravo nije neophodan za rad sistema.
Šta ovo znači za budućnost veštačke inteligencije?
Praktične posledice ovakvog pristupa mogle bi biti ogromne.
Prvo, veštačka inteligencija može da se pokreće potpuno offline. Podaci korisnika nikada ne napuštaju lokalni računar, što otvara vrata mnogo bezbednijoj upotrebi AI sistema u osetljivim sektorima.
Drugo, ovakav model omogućava implementaciju velikih AI sistema na:
-
pametnim telefonima
-
IoT uređajima
-
edge serverima
-
računarima u regionima sa slabim internetom
Treće, kompanije i programeri mogli bi značajno da smanje troškove, jer više ne bi zavisili od skupih cloud API servisa za inferenciju.
Drugim rečima, veštačka inteligencija bi mogla da postane lokalna tehnologija, a ne servis koji stalno zahteva internet konekciju i udaljene servere.
Otvoreni kod i brza popularnost
Još jedna važna činjenica jeste da je projekat potpuno otvorenog koda. BitNet je objavljen pod MIT licencom, što znači da ga svako može koristiti, modifikovati i integrisati u sopstvene projekte.
Na platformi GitHub projekat je već privukao ogromnu pažnju programerske zajednice – sa više od 27 hiljada zvezdica i preko 2.000 fork-ova za vrlo kratko vreme.
Takav interes pokazuje da se ne radi samo o akademskom eksperimentu, već o tehnologiji koja ima realan potencijal da promeni način na koji koristimo veštačku inteligenciju.
AI bez GPU-a – nova era lokalne inteligencije
Ako se BitNet pokaže stabilnim u realnim primenama, mogao bi da označi početak nove faze razvoja AI tehnologije.
Do sada je dominirao model centralizovanih sistema – ogromni serveri, skupe grafičke kartice i cloud infrastruktura. BitNet, međutim, pokazuje da je moguće i drugačije: veštačka inteligencija koja radi lokalno, efikasno i dostupno gotovo svakome.
Za softverske inženjere to znači nove mogućnosti razvoja aplikacija. Za kompanije – značajno niže troškove infrastrukture. A za korisnike – veću privatnost i veću kontrolu nad sopstvenim podacima.
Ukoliko se ovaj trend nastavi, nije isključeno da će za nekoliko godina najnapredniji AI sistemi raditi ne u ogromnim data-centrima, već direktno na uređajima koje svakodnevno nosimo u džepu.






