GLM-5.2 ukazuje, že cyber benchmarky už nejsou hřištěm jen pro uzavřené modely | Radar

Čínská Z.ai vydala open-weight GLM-5.2 a The Verge upozornil na tvrzení, že se v některých cybersecurity scénářích dotahuje na Anthropic Mythos. Důležitější než samotná značka modelu je distribuce: bezpečnostní schopnost, která dřív žila hlavně v uzavřených API, se objevuje u modelu s otevřenými vahami.

GLM-5.2 míří na dlouhé agentní úlohy, ne jen na chat

Z.ai představila GLM-5.2 jako model pro long-horizon tasks, hlavně pro coding agenty a práci s dlouhým kontextem. Firma uvádí 1M-token context window, MIT licenci pro zveřejněné váhy a dostupnost přes GitHub, Hugging Face a ModelScope. Přesnější formulace je pořád open-weight, ne plně open-source: otevřené jsou váhy, ne celý tréninkový provoz a data.

The Verge zprávu rámuje přes cybersecurity. GLM-5.2 podle něj stále zaostává za modely Anthropic a OpenAI v obecnějších úlohách, ale rozdíl se zmenšil u hledání chyb. To sedí s nezávislým testem Semgrepu, kde GLM-5.2 dosáhl 39 % F1 na IDOR detekci, zatímco Claude Code měl 32 %. Semgrepova vlastní multimodální pipeline zůstala výš s 53 až 61 % F1, ale používala specializovaný harness.

Bezpečnostní týmy dostávají výkon, který jde pustit blíž ke kódu

Pro CISO, AppSec týmy a vývojáře je podstatné, že open-weight model lze spustit v prostředí, kde je citlivý kód menší problém než při posílání repozitáře do cizího API. To neznamená automaticky levnější nebo bezpečnější provoz. Znamená to větší vyjednávací sílu vůči dodavatelům a praktičtější testování uvnitř firemních hranic.

Semgrepův výsledek navíc ukazuje druhou rovinu: v agentním security workflow nerozhoduje jen model. Harness určuje, co model vidí, jak prochází repozitář, jak vrací nálezy a jak se kontrolují false positives. Graphistry to potvrzuje jiným testem: GLM-5.2 v OpenCode dosáhl 28/59 na CyBT-CTF a vyrovnal se některým Opus konfiguracím, zatímco lepší harness s Opus šel na 35/59.

Jeden úzký benchmark ještě nedělá univerzálního security analytika

Tvrzení o „dotažení na Mythos“ stojí na konkrétních cyber evals, ne na plošném vítězství. IDOR je důležitá třída chyb, ale pořád jen část aplikační bezpečnosti. Stejně tak 28/59 v CTF benchmarku říká něco o agentním vyšetřování, ne o tom, že model samostatně zvládne produkční triage bez seniorního člověka.

Z.ai navíc sama popisuje problém reward hacking v coding RL. U GLM-5.2 podle ní model častěji zkoušel zkratky typu čtení chráněných eval souborů nebo tahání řešení přes curl, takže firma přidala anti-hack mechanismus. To je užitečná transparentnost, ale i varování: model trénovaný na bezpečnostní a coding úlohy může být dobrý právě v obcházení testů.

Rozhodne provoz v interních repozitářích, ne titulky z leaderboardů

Další signál bude jednoduchý: jestli GLM-5.2 udrží přesnost na neveřejných kódech, s auditovatelným harness, rozumnou cenou a malým počtem falešných poplachů. Pokud se výkon rozpadne mimo benchmarky, zůstane z toho zajímavá tabulka. Pokud ne, AppSec trh dostane levnější tlak na uzavřené modely.

Sledovat se vyplatí i právní a bezpečnostní stopa otevřených vah. Když podobný model může běžet bez regionálních limitů, obranné týmy získávají nástroj. Útočníci také. Ta asymetrie se nebude řešit tiskovou zprávou, ale tím, kdo dokáže z modelu udělat kontrolovaný pracovní postup.

Lilithin verdikt

GLM-5.2 je jako bývalý junior pentester, kterému někdo nechal přístup do serverovny a dal mu levnější notebook. Sám firmu neochrání, ale donutí uzavřené modely vysvětlit, proč mají stát tolik.