BitNet — нови систем за вештачку интелигенцију који омогућава покретање огромних AI модела без скупог хардвера

У свету вештачке интелигенције годинама је важило неписано правило: што је модел већи и напреднији, то захтева скупљи хардвер, снажније графичке картице и приступ cloud инфраструктури. Међутим, истраживачи из компаније Microsoft недавно су отворили изворни код једног пројекта који озбиљно доводи у питање то правило.

Реч је о новом инференцијском оквиру под називом BitNet – технологији која омогућава покретање језичких модела од чак 100 милијарди параметара на обичном процесору.

Другим речима, без GPU-а, без скупих серверских конфигурација и без cloud инфраструктуре вредне десетине хиљада долара. Теоретски, такав модел може да ради чак и на обичном лаптопу, и то брзином која је приближна брзини читања човека.

За оне који прате развој вештачке интелигенције, ово је готово радикална промена парадигме.

Зашто су велики AI модели до сада захтевали скупу опрему?

Велики језички модели (LLM) попут ChatGPT или LLaMA заснивају се на огромном броју параметара – често десетинама или стотинама милијарди. Ти параметри представљају математичке тежине које модел користи да би разумео и генерисао текст.

Традиционално, ове тежине се чувају у 32-битним или 16-битним floating-point бројевима. То значи да свака појединачна вредност заузима значајну количину меморије, а обрада таквих података захтева сложене математичке операције које се најефикасније извршавају на графичким картицама.

Због тога су модерни AI системи готово увек везани за моћне GPU кластере и cloud инфраструктуру.

Ту на сцену ступа BitNet.

Тернарне тежине – минимализам који мења правила игре

Кључна иновација BitNet-а лежи у начину на који модел представља своје тежине.

Уместо класичних децималних вредности, BitNet користи такозване тернарне тежине – свака вредност може бити само:

-1
0
+1

Овај приступ значи да се свака тежина може записати у свега 1,58 бита. За поређење, стандардни модели користе 16 или 32 бита.

На први поглед то делује као драстично поједностављење које би морало да уништи прецизност модела. Међутим, истраживања показују да се перформансе готово не мењају.

У пракси, то значи да се огромна количина података уклања без озбиљног губитка квалитета.

Импресивне перформансе на обичном процесору

Резултати које су истраживачи објавили показују да овакав приступ доноси озбиљне предности.

Модел од 100 милијарди параметара може да ради на једном CPU-у брзином од 5 до 7 токена у секунди, што је приближно брзини којом просечан човек чита текст.

Поред тога, BitNet показује и значајна побољшања у односу на постојеће алате за локално покретање модела, попут llama.cpp.

Тестирања на x86 процесорима показала су:

2,37 до 6,17 пута брже извршавање
82% мању потрошњу енергије
16 до 32 пута мању потрошњу меморије

На ARM архитектури – какву користе модерни лаптопови и мобилни уређаји – убрзање се креће између 1,37 и 5,07 пута.

Другим речима, технологија је једнако релевантна и за десктоп рачунаре и за преносиве уређаје.

Минималан пад тачности

Можда најзанимљивији део целе приче јесте чињеница да драстична компресија модела готово да не утиче на квалитет резултата.

Flagship модел пројекта, назван BitNet b1.58 2B4T, трениран је на чак 4 трилиона токена. На стандардним AI benchmark тестовима показује резултате који су конкурентни моделима исте величине који користе пуну прецизност.

То значи да квантизација – процес смањивања броја битова за представљање података – у овом случају не уништава квалитет модела, већ само елиминише вишак који заправо није неопходан за рад система.

Шта ово значи за будућност вештачке интелигенције?

Практичне последице оваквог приступа могле би бити огромне.

Прво, вештачка интелигенција може да се покреће потпуно offline. Подаци корисника никада не напуштају локални рачунар, што отвара врата много безбеднијој употреби AI система у осетљивим секторима.

Друго, овакав модел омогућава имплементацију великих AI система на:

паметним телефонима
IoT уређајима
edge серверима
рачунарима у регионима са слабим интернетом

Треће, компаније и програмери могли би значајно да смање трошкове, јер више не би зависили од скупих cloud API сервиса за инференцију.

Другим речима, вештачка интелигенција би могла да постане локална технологија, а не сервис који стално захтева интернет конекцију и удаљене сервере.

Отворени код и брза популарност

Још једна важна чињеница јесте да је пројекат потпуно отвореног кода. BitNet је објављен под MIT лиценцом, што значи да га свако може користити, модификовати и интегрисати у сопствене пројекте.

На платформи GitHub пројекат је већ привукао огромну пажњу програмерске заједнице – са више од 27 хиљада звездица и преко 2.000 fork-ова за врло кратко време.

Такав интерес показује да се не ради само о академском експерименту, већ о технологији која има реалан потенцијал да промени начин на који користимо вештачку интелигенцију.

AI без GPU-а – нова ера локалне интелигенције

Ако се BitNet покаже стабилним у реалним применама, могао би да означи почетак нове фазе развоја AI технологије.

До сада је доминирао модел централизованих система – огромни сервери, скупе графичке картице и cloud инфраструктура. BitNet, међутим, показује да је могуће и другачије: вештачка интелигенција која ради локално, ефикасно и доступно готово свакоме.

За софтверске инжењере то значи нове могућности развоја апликација. За компаније – значајно ниже трошкове инфраструктуре. А за кориснике – већу приватност и већу контролу над сопственим подацима.

Уколико се овај тренд настави, није искључено да ће за неколико година најнапреднији AI системи радити не у огромним дата-центрима, већ директно на уређајима које свакодневно носимо у џепу.