DiffusionGemma uderza w najwolniejszy nawyk LLM: token po tokenie | Radar

Google DeepMind pokazał DiffusionGemma, eksperymentalny open model do generowania tekstu, który według strony modelu osiąga na NVIDIA GPU do 4x do 5x szybszy output i ponad 1 000 tokenów na sekundę na pojedynczej H100. Model bazuje na Gemma 4 oraz badaniach Gemini Diffusion i zamiast typowego generowania token po tokenie pracuje z równoległym tworzeniem większych bloków tekstu.

DiffusionGemma zamienia dekodowanie z kolejki w równoległą korektę tekstu

Google opisuje DiffusionGemma jako non-sequential transformer. Zamiast dopisywać kolejny token po ostatnim, model generuje całe akapity i iteracyjnie je poprawia. Strona podaje, że może generować 256 tokenów równolegle w jednym forward pass, dzięki czemu każdy token widzi inne części powstającego tekstu.

Model używa architektury Mixture of Experts z 26B łącznych parametrów i 3,8B aktywnych parametrów podczas inference. Google twierdzi, że wersja po kwantyzacji mieści się w 24 GB VRAM na NVIDIA RTX 5090 albo 4090. Dostęp jest przez Hugging Face, Kaggle i Vertex AI Model Garden.

Lokalna AI celuje w latencję, nie tylko w prywatność

Lokalne modele zwykle sprzedaje się przez prywatność, koszt i kontrolę nad danymi. DiffusionGemma dodaje inną tezę produktową: jeśli generowanie jest wystarczająco szybkie, interaktywne workflow stają się realne tam, gdzie powolny autoregressive model jest ociężały. Inline editing, code infilling i strukturalne poprawki tekstu mają więcej sensu, gdy model nie czeka na długi łańcuch tokenów.

Dla deweloperów liczy się też ekonomia hardware. Model aktywujący tylko 3,8B z 26B parametrów obiecuje kompromis między pojemnością a szybkością. To nie oznacza automatycznie lepszej jakości, ale jest ciekawszym kierunkiem niż kolejny większy checkpoint.

Sama szybkość nie rozwiąże jakości ani toolingu

Słowo „eksperymentalny“ jest tu ważne. Diffusion dla tekstu ma inne błędy niż autoregressive decoding. Równoległa korekta może pomagać w globalnej spójności, ale deweloperzy będą potrzebować realnych testów factuality, kodu, wielojęzyczności i długich instrukcji.

Poza tym 1 000 tokenów na sekundę na H100 to nie to samo co wygodna praca na zwykłym laptopie. O lokalnej adopcji zdecydują software stack, kwantyzacja, wsparcie w runtimes i zachowanie na dostępnych GPU, a nie tylko najwyższa liczba ze strony marketingowej.

Wpływ rozstrzygnie integracja z codziennymi runtimes

Kolejne sygnały są proste: wsparcie w narzędziach Hugging Face, szybkie uruchomienia w lokalnych runtimes, porównywalne evals z modelami Gemma i Qwen oraz dema w edytorach, gdzie równoległa generacja naprawdę zmienia UX. Jeśli zostanie tylko model card i kilka benchmarków, wpływ będzie ograniczony.

Jeśli jednak diffusion decoding trafi do zwykłych narzędzi deweloperskich, może zmienić oczekiwania wobec lokalnych asystentów. Nie dlatego, że staną się wszechwiedzący. Dlatego, że wreszcie przestaną pisać jak ktoś stukający w klawisze jednym palcem.

Werdykt Lilith

DiffusionGemma to biegacz, który nie chce stać w kolejce po każdy token osobno. Jeśli utrzyma tempo poza stadionem benchmarków H100, lokalni asystenci mogą zacząć przypominać mniej maszynę do pisania, a bardziej redaktora patrzącego na cały akapit.