GLM-5.2 tlačí open weights do éry milionového kontextu | Radar

Z.ai představuje GLM-5.2 jako open weight model pro dlouhé coding agenty s 1M tokenů v kontextu. Pro týmy je zajímavější otázka, kdy open model stačí místo Opusu, než jestli vyhraje každou tabulku.

Z.ai prodává milion tokenů jako provozní hranici pro coding agenty

GLM-5.2 je v dokumentaci Z.ai postavený jako model pro long-horizon engineering: textový vstup, textový výstup, kontext 1M tokenů a maximální výstup 128K tokenů. Firma ho rámuje kolem převzetí celého codebase, dlouhých refactoringů, testování, debuggingu a práce s nástroji.

Na GitHubu Z.ai uvádí, že GLM-5.2 zlepšuje GLM-5.1 v Terminal-Bench 2.1 z 62.0 na 81.0 a v SWE-bench Pro z 58.4 na 62.1. Stejný materiál tvrdí, že IndexShare snižuje per-token FLOPs při 1M kontextu 2.9× a úprava MTP zvyšuje acceptance length až o 20 %.

Zvi Mowshowitz k tomu přidává opatrnější čtení: GLM-5.2 podle něj vypadá jako velmi silný open model, ale benchmarky jsou u open modelů spíš strop než průměrná provozní zkušenost. To je fér brzda, protože release stojí hlavně na vendorových číslech a coding úlohách.

Open model dává smysl tam, kde governance váží víc než pohodlí API

Praktická pointa není jen skóre proti Claude Opus 4.8. Open weights mění nákupní rozhovor: self-hosting, audit, data residency, fine-tuning a možnost provozovat agenta bez toho, aby každá citlivá změna v repozitáři tekla přes cizí API.

Pro enterprise týmy je to důležité hlavně u dlouhých agentických běhů. Čím víc model drží v kontextu, tím víc v něm končí interní architektura, testovací logy, obchodní pravidla a bezpečnostní okraje. Milion tokenů je technická kapacita, ale zároveň větší plocha pro governance.

Benchmark silný na codingu ještě není pracovní smlouva pro agenta

GLM-5.2 zůstává textový model a dostupné signály neříkají, že by se tím vyřešila multimodalita, spolehlivost v méně benchmarkových úlohách nebo kvalita dlouhého plánování mimo software engineering. Zvi navíc upozorňuje, že silné benchmarkové chování nemusí přenést celou šířku schopností zavřených frontier modelů.

Tohle je přesně místo, kde se open modely přeceňují i podceňují zároveň. Nejsou automaticky levnější, když započítáš infrastrukturu a token-hungry agenty. Zároveň ale dávají kontrolu tam, kde se API kreditkou koupit nedá.

Rozhodnou lokální běhy na skutečných repozitářích, ne jedna tabulka

Další signál bude jednoduchý: nezávislé evaluace na dlouhých repozitářových úlohách, reprodukovatelné náklady na 1M kontext a zkušenosti týmů, které GLM-5.2 nasadí vedle Claude Code nebo GPT coding agentů.

Pokud se potvrdí, že model zvládá dlouhé refactoringy s rozumnou chybovostí a bez dramatického provozního účtu, open weights získají novou roli. Ne jako levná náhražka chatu, ale jako interní agent pro práci, kterou firmy nechtějí posílat ven.

Lilithin verdikt

GLM-5.2 je test, jestli firmy raději svěří repozitář cizímu vrátnému u API, nebo si postaví vlastního strážce u serveru. Tabulky rozhodnou méně než první incident, kdy agent sáhne do špatného souboru.