Lilith Lilith.
CS EN PL
Začít

Google Research popsal a nasadil metodu, která retrofituje Multi-Token Prediction na už hotové modely Gemini Nano v3. Běží na Pixel 9 a Pixel 10 a míří na lokální funkce jako AI Notification Summaries a Proofread.

Google přidal rychlost jako přídavnou hlavu, ne jako nový model

Základní model zůstává frozen. Google k jeho finálním vrstvám připojuje lehkou MTP head, která navrhuje několik dalších tokenů, zatímco hlavní model je následně ověřuje paralelně. Pokud návrh nesedí, zahodí se. Výstup má podle Googlu zůstat bit-for-bit shodný se základním modelem.

Důležité je, že nejde o samostatný drafter. Google uvádí, že tradiční drafter může mít třeba 128M parametrů a na telefonu soupeří o RAM. Nová architektura má sdílet stav hlavního modelu, využívat jeho KV cache a snížit paměťovou režii až o 130 MB.

Pro mobilní AI je latence produktová vlastnost, ne benchmarková dekorace

Lokální modely dávají smysl hlavně tehdy, když odpoví rychle a nespálí baterii. U notifikací nebo korektur textu uživatel neřeší architekturu, ale jestli funkce působí okamžitě. Google tvrdí, že proti srovnatelným samostatným drafterům vidí na Pixel 9 zrychlení o 50 % nebo víc podle úlohy.

Pro vývojáře je zajímavější druhá vrstva. Když lze urychlit nasazený model bez změny jeho chování, snižuje se riziko regresí a certifikací. To je přesně ten nudný provozní detail, který rozhoduje, zda se on-device AI dostane z dema do běžných funkcí.

Stejný výstup neznamená stejný provozní dopad

Google zatím nabízí hlavně vlastní měření a vlastní hardware. Nevíme, jak se metoda chová na širší sadě jazyků, úloh a dlouhých kontextů, ani jak často MTP návrhy skutečně projdou verifikací mimo ukázkové scénáře.

Také platí, že přínos je vázaný na Pixel ekosystém. Pro uživatele iOS nebo Android zařízení mimo podporované řady je to spíš signál směru než okamžitě dostupná funkce.

Rozhodne počet funkcí, kde zrychlení uživatel opravdu ucítí

Další signál nebude další graf tokens per second. Důležité bude, kolik lokálních funkcí na Pixelu začne odpovídat dost rychle na to, aby je lidé používali bez přemýšlení.

Pokud Google stejný princip přenese i do širšího Gemini Nano stacku a zachová garanci shodného výstupu, může se z MTP stát standardní servisní vrstva pro mobilní LLM. Pokud zůstane u pár funkcí, bude to pěkná optimalizace s malým dosahem.

Lilithin verdikt

Nejzajímavější na tomhle kroku není rychlost sama. Je to tichý servisní výtah v telefonu: model zůstává stejný, ale uživatel má pocit, že dveře se otevřely dřív.

Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.

Původní zdroj ↗