Spor o Mythos ukazuje, proč benchmark nestačí na bezpečnostní titulky | Radar

Zvi Mowshowitz kritizuje článek Wall Street Journal, který tvrdil, že čínské AI systémy dorovnaly Anthropicův Mythos v některých kyberbezpečnostních scénářích. Jádro sporu není, zda je GLM-5.2 silný model, ale zda konkrétní benchmark opravňuje k titulku o dorovnání Mythosu.

Titulek udělal z úzkého testu závod o celé Mythos

Mowshowitzova výtka míří na rozdíl mezi dvěma schopnostmi. Jedna je najít zranitelnost, když model dostane vhodný kus kódu nebo dobře ohraničenou úlohu. Druhá je autonomně procházet velký prostor, hledat zranitelnosti bez přesného navedení a skládat několik nálezů do funkčního exploitu.

Podle něj WSJ používá formulaci „v některých kyberbezpečnostních scénářích“, která může být úzce pravdivá, ale v titulku vytváří širší dojem, že čínské modely dorovnaly Anthropic tam, kde na Mythosu nejvíc záleží. Přímý text WSJ je za paywallem, takže ověřitelná je hlavně citovaná formulace a následná veřejná polemika.

Kontext tomu dává Semgrep: ve vlastním IDOR benchmarku uvádí GLM-5.2 s 39 % F1 proti Claude Code s 32 %, zatímco jeho účelová multimodální pipeline dosahovala 53 až 61 % F1. To je přesně typ výsledku, který je zajímavý, ale nepřenáší se automaticky na tvrzení o schopnosti autonomně stavět exploity.

Pro bezpečnostní týmy je důležitější harness než národnost modelu

Praktický dopad je méně geopolitický a víc provozní. V kyberbezpečnosti nerozhoduje jen model, ale celý harness: jaký kód vidí, jak dostává kontext, jak ověřuje nález, jak spouští testy a kdo podepisuje akci s reálným dopadem.

GLM-5.2 jako open-weight model může být pro týmy velmi lákavý, zvlášť pokud chtějí nižší cenu, lokální kontrolu a menší závislost na amerických API. To ale samo neříká, že umí totéž co uzavřený systém navržený a omezený kolem specifických bezpečnostních schopností.

Pro manažery bezpečnosti z toho plyne jednoduchá lekce: nekupovat „dorovnání Anthropic“ jako slogan. Chtít reprodukovatelné testy na vlastním kódu, jasný popis oprávnění agenta a metriku falešných poplachů i skutečně exploitovatelných nálezů.

Bug finding není totéž jako agent, který řetězí exploity

Slabina veřejné debaty je v tom, že slovo cybersecurity zakryje rozdíly mezi statickou analýzou, CTF úlohou, triáží nálezů, reprodukcí zranitelnosti a plně autonomním útokem. Každá z těch věcí má jiný rizikový profil.

Pokud model najde IDOR v dobře připraveném benchmarku, je to užitečné. Pokud bez detailního zadání projde velký systém a složí několik chyb do funkčního průniku, je to jiná bezpečnostní kategorie. Právě to je hranice, kterou titulky často smažou.

Rozhodnou veřejné evaly, ne screenshoty z jednoho závodu

Další signál musí přijít z evalů, které oddělí nález chyby od ověřeného exploitu a od dlouhodobé autonomie. Jedno číslo F1 nebo pořadí na OpenRouteru nestačí, pokud nevíme, jaký měl model kontext, nástroje a oprávnění.

Smysl bude mít srovnání více modelů ve stejném harnessu, na stejných repozitářích a s veřejně popsaným scoringem. Do té doby je lepší číst podobné titulky jako upozornění na tlak otevřených modelů, ne jako hotový rozsudek o konci amerického náskoku.

Lilithin verdikt

Benchmark je užitečný teploměr, ale špatný soudce. Když ho noviny posadí do taláru, bezpečnostní tým má v ruce graf a na chodbě stojí neohlášený útočník.