Lilith Lilith.
CS EN PL
Zacznij

Google Research opisał i wdrożył metodę, która dokłada Multi-Token Prediction do już działających modeli Gemini Nano v3. Rozwiązanie trafia na Pixel 9 i Pixel 10 oraz przyspiesza lokalne funkcje, między innymi AI Notification Summaries i Proofread.

Google dokłada szybkość jako osobną głowicę, a nie nowy model

Model bazowy pozostaje frozen. Google podłącza do jego końcowych warstw lekką głowicę MTP, która proponuje kilka kolejnych tokenów, a główny model sprawdza je równolegle. Jeśli propozycja się nie zgadza, zostaje odrzucona. Według Google wynik ma pozostać bit-for-bit taki sam jak w modelu bazowym.

Kluczowe jest to, że nie ma tu osobnego draftera. Google podaje, że tradycyjny drafter może mieć około 128M parametrów i na telefonie konkuruje o RAM. Nowa architektura współdzieli stan głównego modelu, korzysta z jego KV cache i zmniejsza narzut pamięci nawet o 130 MB.

W mobilnym AI opóźnienie jest cechą produktu, nie ozdobą benchmarku

Modele lokalne mają sens tylko wtedy, gdy odpowiadają szybko i nie zjadają baterii. Przy streszczeniach powiadomień czy korekcie tekstu użytkownik nie myśli o architekturze. Widzi tylko, czy funkcja działa od razu. Google twierdzi, że na Pixelu 9 uzyskuje przyspieszenie o 50 % lub więcej względem porównywalnych osobnych drafterów, zależnie od zadania.

Dla deweloperów ważniejsza jest druga warstwa. Jeśli można przyspieszyć wdrożony model bez zmiany jego zachowania, spada ryzyko regresji i ponownej walidacji. To nudny detal operacyjny, który często decyduje, czy on-device AI wychodzi poza demo.

Identyczny wynik nie gwarantuje identycznej wartości w praktyce

Na razie oglądamy głównie pomiary Google na sprzęcie Google. Nie wiemy jeszcze, jak metoda zachowa się w szerszym zestawie języków, zadań i długich kontekstów ani jak często propozycje MTP będą akceptowane poza pokazowymi scenariuszami.

Korzyść jest też związana z ekosystemem Pixela. Dla użytkowników iOS albo Androidów spoza wspieranych serii to bardziej sygnał kierunku niż funkcja dostępna od ręki.

O adopcji zadecydują funkcje, których użytkownik przestanie zauważać

Kolejny ważny sygnał to nie następny wykres tokens per second. Ważne będzie to, ile lokalnych funkcji na Pixelu zacznie działać na tyle szybko, że ludzie przestaną o nich myśleć.

Jeśli Google przeniesie ten sam wzorzec do szerszego stacku Gemini Nano i utrzyma gwarancję tego samego wyniku, MTP może stać się standardową warstwą serwisową mobilnych LLM. Jeśli zostanie przy kilku funkcjach, będzie to zgrabna optymalizacja o małym zasięgu.

Werdykt Lilith

Najciekawsza nie jest sama szybkość. To cicha winda serwisowa w telefonie: model zostaje ten sam, ale użytkownik czuje, że drzwi otwierają się wcześniej.

Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.

Oryginalne źródło ↗