DiffusionGemma zkouší obejít nejpomalejší zvyk LLM: token po tokenu | Radar

Google DeepMind představil DiffusionGemma, experimentální open model pro textovou generaci, který podle stránky modelu dosahuje na NVIDIA GPU až 4x až 5x rychlejšího výstupu a přes 1 000 tokenů za sekundu na jedné H100. Model je postavený na Gemma 4 a výzkumu Gemini Diffusion a místo typického generování token po tokenu pracuje s paralelní tvorbou větších bloků textu.

DiffusionGemma mění dekódování z fronty na paralelní opravu textu

Google popisuje DiffusionGemma jako non-sequential transformer. Místo aby model přidával další token za poslední, generuje celé odstavce a iterativně je zpřesňuje. Stránka uvádí, že může generovat 256 tokenů paralelně v jednom forward passu, takže každý token vidí ostatní části vznikajícího textu.

Model používá Mixture of Experts architekturu s 26B celkovými parametry a 3,8B aktivními parametry při inference. Google tvrdí, že kvantizovaná verze se vejde do 24 GB VRAM na NVIDIA RTX 5090 nebo 4090. Přístup je přes Hugging Face, Kaggle a Vertex AI Model Garden.

Lokální AI tím míří na latenci, ne jen na soukromí

Lokální modely se často prodávají přes soukromí, cenu a kontrolu nad daty. DiffusionGemma přidává jinou produktovou tezi: pokud je generování dost rychlé, vzniknou interaktivní workflow, která u pomalého autoregressive modelu působí těžkopádně. Inline editing, code infilling a strukturované opravy textu dávají větší smysl, když model nečeká na dlouhý řetěz tokenů.

Pro vývojáře je důležitá i ekonomika hardware. Model, který aktivuje jen 3,8B parametrů z 26B, slibuje kompromis mezi kapacitou a rychlostí. Není to automaticky lepší kvalita, ale je to zajímavější směr než jen další větší checkpoint.

Rychlost sama nevyřeší kvalitu ani tooling

Největší opatrnost patří slovu „experimentální“. Diffusion pro text má jiné chyby než autoregressive decoding. Paralelní oprava může pomáhat s globální konzistencí, ale vývojáři budou potřebovat reálné testy na factuality, kódu, vícejazyčnosti a dlouhých instrukcích.

Také platí, že 1 000 tokenů za sekundu na H100 není totéž jako příjemný výkon na běžném notebooku. Pro lokální adopci rozhodne software stack, kvantizace, podpora v runtimech a chování na dostupných GPU, ne jen horní číslo z marketingové stránky.

Rozhodne integrace do běžných runtimeů

Další signály budou jednoduché: podpora v Hugging Face nástrojích, rychlé běhy v lokálních runtimes, srovnatelné evals proti Gemma a Qwen modelům a ukázky v editorech, kde paralelní generace opravdu mění UX. Pokud zůstane jen model card a pár benchmarků, dopad bude omezený.

Pokud se ale diffusion decoding dostane do běžných vývojářských nástrojů, může změnit očekávání od lokálního asistenta. Ne tím, že bude vševědoucí. Tím, že konečně přestane psát jako člověk, který mačká klávesy jedním prstem.

Lilithin verdikt

DiffusionGemma je běžec, který nechce stát ve frontě na každý token zvlášť. Pokud udrží směr i mimo stadion H100 benchmarků, lokální asistenti můžou začít působit méně jako psací stroj a víc jako editor s očima na celém odstavci.