Кинески Kimi k1.5 изазива OpenAI: Нови лидер у AI трци?

Kimi k1.5 је мултимодални AI модел који може да разуме текстуалне и визуелне улазе, као што су фотографије и видео снимци.

Трка у развоју вештачке интелигенције (AI) се захуктава, а Кина доминира глобалним разговорима о овој теми. Док се AI заједница тек привикавала на могућности DeepSeek-овог модела DeepSeek-R1, који парира моделу OpenAI-o1, појављује се још један играч који тврди да је једнако добар, ако не и бољи од o1. Ера кинеских AI модела је званично започела са DeepSeek, а сада имамо Kimi k1.5, који је према одређеним кључним тестовима надмашио OpenAI GPT-4o и Claude 3.5 Sonnet.

Шта је Kimi k1.5?

Kimi k1.5 је најновији модел који је објавио пекиншки AI стартап Moonshot AI. Према доступним информацијама, овај модел се може мерити са OpenAI-o1, а у неким аспектима га чак и надмашује. O1 модел је дизајниран да проводи више времена размишљајући пре него што одговори, чиме се повећава његова способност решавања сложених проблема.

🚀 Introducing Kimi k1.5 — an o1-level multi-modal model

-Sota short-CoT performance, outperforming GPT-4o and Claude Sonnet 3.5 on 📐AIME, 📐MATH-500, 💻 LiveCodeBench by a large margin (up to +550%)
-Long-CoT performance matches o1 across multiple modalities (👀MathVista,… pic.twitter.com/ZbMcljcsSV

— Kimi.ai (@Kimi_Moonshot) January 20, 2025

Међутим, Kimi је према тестовима показао боље резултате у областима као што су математика, кодирање и разумевање текстуалних и визуелних улаза, укључујући фотографије и видео записе, што га чини мултимодалним, за разлику од DeepSeek-R1. Баш као и модели из DeepSeek, Kimi је развијен уз знатно ниже трошкове у поређењу са водећим америчким AI моделима. Kimi k1.5 је доступан преко платформе Kimi.ai и представља првог правог конкурента моделу o1.

По чему се Kimi разликује?

Према доступним информацијама, Kimi k1.5 није само још један AI модел, већ се сматра великим искораком у области reinforcement learning (RL) и мултимодалног резоновања. Модел може комбиновати визуелне податке, текст и код како би решавао сложене проблеме. На основу тестова, надмашио је GPT-4o и Claude 3.5 Sonnet у више категорија. Тим који стоји иза Kimi-ја објавио је детаљан извештај који објашњава како је постигнут овај напредак, као и које су биле највеће препреке у његовом развоју.

У суштини, Kimi k1.5 је мултимодални large language model (LLM) који је трениран применом метода reinforcement learning-а. Будући да може обрађивати више формата података, Kimi је веома прилагодљив модел са широким спектром примена. Док конвенционални AI модели зависе од статичких скупова података, Kimi учи кроз истраживање и систем награђивања. Овај процес, како се наводи, значајно побољшава његову способност резоновања и решавања сложених проблема.

На тесту бољи од свих варијанти Open AI GPT-4 модела

На тесту MATH 500, Kimi k1.5 је постигао резултат од 96.2, што је боље од свих варијанти OpenAI GPT-4 модела. На тесту AIME (математички тест) постигао је 77.5, док је на Codeforces (платформа за кодирање) остварио резултат који га сврстава у 94. перцентил.

Модел је на многим тестовима надмашио GPT-4 и Claude 3.5 Sonnet за чак 550 процената. У поређењу са америчким моделима GPT-4 и Claude, Kimi се истиче у резоновању и способности решавања проблема. Такође је врло ефикасан у обради дугог контекста и сложених математичких проблема. Ипак, ваља напоменути да се често доводи у питање поузданост резултата тестирања, јер AI компаније саме спроводе тестове и објављују резултате.

Како функционише?

Као што је већ поменуто, Kimi користи reinforcement learning (RL) технике како би побољшао доношење одлука – унапређује се кроз истраживање и усавршавање решења. Модел користи приступ Chain of Thought, што значи да сложене проблеме разлаже на мање кораке како би побољшао резоновање. Према истраживачком раду који је објављен, Kimi може обрађивати до 128k токена, што му омогућава да разуме и генерише одговоре засноване на огромној количини информација. Пошто може истовремено анализирати и текст и слике, Kimi се може користити за задатке попут анализе текста и слика, као и за решавање проблема који захтевају визуелни инпут.

Када је реч о ефикасности, модел користи методе познате као partial rollouts и length penalties, које омогућавају поновно коришћење претходних излаза и избегавање непотребно дугих одговора.

Шта је Kimi k1.5?

По чему се Kimi разликује?

На тесту бољи од свих варијанти Open AI GPT-4 модела

Како функционише?

Компас правих вредности