Gugl je već predstavio otvoreni Gemma model, mali model dizajniran da radi na uređajima kao što su smartfoni. Međutim, Gugl nastavlja da širi porodicu Gemma modela i da ih optimizuje za lokalnu upotrebu na telefonima i laptopovima.
Novi model: EmbeddingGemma
Najnoviji model, EmbeddingGemma, ima zadatak da konkuriše embedding modelima ( (Embedinzi (embeddings) su numerički predstavi teksta, reči ili podataka koji omogućavaju mašinama da razumeju i porede značenja) koje već koriste kompanije, ističući se većim brojem parametara i snažnim rezultatima na benčmarkovima (testovi koji pokazuju koliko je neki model dobar u svom poslu).
EmbeddingGemma je otvoreni model sa 300 miliona parametara, najbolje optimizovan za rad na laptopovima, desktop računarima i mobilnim uređajima.
Introducing EmbeddingGemma, our newest open model that can run completely on-device. It’s the top model under 500M parameters on the MTEB benchmark and comparable to models nearly 2x its size – enabling state-of-the-art embeddings for search, retrieval + more.
— Sundar Pichai (@sundarpichai) September 4, 2025
Obuka i jezici
EmbeddingGemma, zasnovan na Gemma 3 arhitekturi, obučavan je na više od 100 jezika. Min Čoj, menadžer proizvoda, i Sahil Dua, vodeći istraživač u Google DeepMind, napisali su u blogu da EmbeddingGemma „pruža mogućnost prilagođavanja dimenzija izlaza“ i da će raditi u kombinaciji sa otvorenim Gemma 3n modelom.
Integracija sa alatima
Model se integriše sa alatima kao što su Ollama, llama.cpp, MLX, LiteRT, LMStudio, LangChain, LlamaIndex i Cloudflare. „Dizajniran specijalno za AI na uređaju, njegov efikasan dizajn od 308 miliona parametara omogućava izgradnju aplikacija koristeći tehnike kao što su Retrieval Augmented Generation (RAG) i semantička pretraga koje rade direktno na vašem hardveru,“ rekli su Čoj i Dua.
„On obezbeđuje privatne, visokokvalitetne embedinge koji funkcionišu bilo gde, čak i bez internet konekcije.“
Performanse na benčmarku
Model je postigao dobre rezultate na Massive Text Embedding Benchmark (MTEB) multilingual v2, koji meri mogućnosti embedding modela.
To je model sa najvišom ocenom među modelima ispod 500 miliona parametara.
Mobilni RAG
Značajna primena EmbeddingGemma modela je razvoj mobilnih RAG (Retrieval Augmented Generation) provodnika i implementacija semantičke pretrage. RAG se oslanja na embedding modele koji kreiraju numeričke reprezentacije podataka koje modeli ili agenti mogu koristiti da bi odgovorili na upite.
Većina RAG provodnika ne radi na laptopovima ili telefonima, već na oblaku ili lokalnim serverima. Izgradnja mobilnog RAG cevovoda omogućava prikupljanje informacija i odgovaranje na upite direktno na lokalnim uređajima.
Zaposleni mogu da postavljaju pitanja ili koriste agente preko telefona ili drugih uređaja da pronađu potrebne informacije.
Rast interesovanja za lokalni AI
Interesovanje za pokretanje AI aplikacija direktno na uređajima raste, uz pojavu alata za kreiranje mobilnih AI aplikacija i sve više modela koji rade na uređajima, poput novog LFM2-VL modela kompanije Liquid AI.
Kompanije kao što su Apple, Samsung i Qualcomm konkurišu da integrišu hardver i softver sposoban za pokretanje AI modela na prenosivim uređajima bez ugrožavanja trajanja baterije.
Kvalitet embedinga i RAG
Čoj i Dua objašnjavaju da EmbeddingGemma stvara visokokvalitetne embedinge.
RAG provodnik ima dva ključna koraka: pronalaženje relevantnog konteksta i generisanje odgovora na osnovu tog konteksta. „Za efikasan RAG provodnik, kvalitet početnog koraka pronalaženja je kritičan. Loši embedinzi će pronaći nerelevantne dokumente, što dovodi do netačnih ili besmislenih odgovora.
Tu EmbeddingGemma pokazuje svoju snagu, obezbeđujući visokokvalitetne reprezentacije potrebne za precizne i pouzdane aplikacije na uređaju,“ objašnjavaju Čoj i Dua.
Matryoshka Representation Learning
Da bi ovo postigla, EmbeddingGemma je uvela metod zvan Matryoshka Representation Learning. On daje modelu fleksibilnost, jer može da obezbedi više veličina embedinga unutar jednog modela.
Na primer, programeri mogu da koriste puni 768-dimenzionalni vektor koji EmbeddingGemma podržava ili da ga skrate na manje veličine za veću brzinu.
Rast tržišta embedding modela
Rastuća upotreba RAG u kompanijama dovela je do povećanog interesovanja za embedding modele. EmbeddingGemma nije jedini Google model za embedding. Jula je Gugl predstavio i Embedding Gemini.
Cohere je na četvrtoj iteraciji svog embedding modela sa Cohere Embed 4. Francuska kompanija Mistral ima Codestral Embed, OpenAI nudi Text Embedding 3 Large, a Qodo je lansirala Qodo-Embed-1-1.5B.
Sama mogućnost dovođenja RAG-a i embedding modela na uređaje uzbuđuje mnoge programere.






