Гугл је већ представио отворени Gemma модел, мали модел дизајниран да ради на уређајима као што су смартфони. Међутим, Гугл наставља да шири породицу Gemma модела и да их оптимизује за локалну употребу на телефонима и лаптоповима.
Нови модел: EmbeddingGemma
Најновији модел, EmbeddingGemma, има задатак да конкурише embedding моделима ( (Ембединзи (embeddings) су нумерички представи текста, речи или података који омогућавају машинама да разумеју и пореде значења) које већ користе компаније, истичући се већим бројем параметара и снажним резултатима на бенчмарковима (тестови који показују колико је неки модел добар у свом послу).
EmbeddingGemma је отворени модел са 300 милиона параметара, најбоље оптимизован за рад на лаптоповима, десктоп рачунарима и мобилним уређајима.
Introducing EmbeddingGemma, our newest open model that can run completely on-device. It’s the top model under 500M parameters on the MTEB benchmark and comparable to models nearly 2x its size – enabling state-of-the-art embeddings for search, retrieval + more.
— Sundar Pichai (@sundarpichai) September 4, 2025
Обука и језици
EmbeddingGemma, заснован на Gemma 3 архитектури, обучаван је на више од 100 језика. Мин Чој, менаџер производа, и Сахил Дуа, водећи истраживач у Google DeepMind, написали су у блогу да EmbeddingGemma „пружа могућност прилагођавања димензија излаза“ и да ће радити у комбинацији са отвореним Gemma 3n моделом.
Интеграција са алатима
Модел се интегрише са алатима као што су Ollama, llama.cpp, MLX, LiteRT, LMStudio, LangChain, LlamaIndex и Cloudflare. „Дизајниран специјално за AI на уређају, његов ефикасан дизајн од 308 милиона параметара омогућава изградњу апликација користећи технике као што су Retrieval Augmented Generation (RAG) и семантичка претрага које раде директно на вашем хардверу,“ рекли су Чој и Дуа.
„Он обезбеђује приватне, висококвалитетне ембединге који функционишу било где, чак и без интернет конекције.“
Перформансе на бенчмарку
Модел је постигао добре резултате на Massive Text Embedding Benchmark (MTEB) multilingual v2, који мери могућности embedding модела.
То је модел са највишом оценом међу моделима испод 500 милиона параметара.
Мобилни RAG
Значајна примена EmbeddingGemma модела је развој мобилних RAG (Retrieval Augmented Generation) проводника и имплементација семантичке претраге. RAG се ослања на embedding моделе који креирају нумеричке репрезентације података које модели или агенти могу користити да би одговорили на упите.
Већина RAG проводника не ради на лаптоповима или телефонима, већ на облаку или локалним серверима. Изградња мобилног RAG цевовода омогућава прикупљање информација и одговарање на упите директно на локалним уређајима.
Запослени могу да постављају питања или користе агенте преко телефона или других уређаја да пронађу потребне информације.
Раст интересовања за локални AI
Интересовање за покретање AI апликација директно на уређајима расте, уз појаву алата за креирање мобилних AI апликација и све више модела који раде на уређајима, попут новог LFM2-VL модела компаније Liquid AI.
Компаније као што су Apple, Samsung и Qualcomm конкуришу да интегришу хардвер и софтвер способан за покретање AI модела на преносивим уређајима без угрожавања трајања батерије.
Квалитет ембединга и RAG
Чој и Дуа објашњавају да EmbeddingGemma ствара висококвалитетне ембединге.
RAG проводник има два кључна корака: проналажење релевантног контекста и генерисање одговора на основу тог контекста. „За ефикасан RAG проводник, квалитет почетног корака проналажења је критичан. Лоши ембединзи ће пронаћи нерелевантне документе, што доводи до нетачних или бесмислених одговора.
Ту EmbeddingGemma показује своју снагу, обезбеђујући висококвалитетне репрезентације потребне за прецизне и поуздане апликације на уређају,“ објашњавају Чој и Дуа.
Matryoshka Representation Learning
Да би ово постигла, EmbeddingGemma је увела метод зван Matryoshka Representation Learning. Он даје моделу флексибилност, јер може да обезбеди више величина ембединга унутар једног модела.
На пример, програмери могу да користе пуни 768-димензионални вектор који EmbeddingGemma подржава или да га скрате на мање величине за већу брзину.
Раст тржишта embedding модела
Растућа употреба RAG у компанијама довела је до повећаног интересовања за embedding моделе. EmbeddingGemma није једини Google модел за embedding. Јула је Гугл представио и Embedding Gemini.
Cohere је на четвртој итерацији свог embedding модела са Cohere Embed 4. Француска компанија Mistral има Codestral Embed, OpenAI нуди Text Embedding 3 Large, а Qodo је лансирала Qodo-Embed-1-1.5B.
Сама могућност довођења RAG-а и embedding модела на уређаје узбуђује многе програмере.