Spór o Mythos pokazuje, dlaczego jeden benchmark nie uniesie nagłówka o cyberbezpieczeństwie | Radar

Zvi Mowshowitz krytykuje artykuł Wall Street Journal twierdzący, że chińskie systemy AI dorównały Anthropicowemu Mythos w niektórych scenariuszach cyberbezpieczeństwa. Sedno sporu nie brzmi, czy GLM-5.2 jest mocnym modelem. Chodzi o to, czy konkretny benchmark uzasadnia nagłówek o dogonieniu Mythos.

Nagłówek zrobił z wąskiego testu wyścig z całym Mythos

Zarzut Mowshowitza opiera się na rozróżnieniu zdolności. Jedna rzecz to znalezienie podatności, gdy model dostaje właściwy fragment kodu albo dobrze ograniczone zadanie. Druga to autonomiczne przeszukiwanie dużej przestrzeni, znajdowanie podatności bez precyzyjnego prowadzenia i łączenie kilku odkryć w działający exploit.

Według niego sformułowanie WSJ o dorównaniu Mythos „w niektórych scenariuszach cyberbezpieczeństwa” może być wąsko prawdziwe, ale nagłówek buduje szersze wrażenie, że chińskie modele dogoniły Anthropic tam, gdzie Mythos ma największe znaczenie. Sam tekst WSJ jest za paywallem, więc weryfikowalne są głównie cytowane sformułowanie i publiczna polemika.

Kontekst daje Semgrep: w swoim benchmarku IDOR podał GLM-5.2 na poziomie 39 % F1 wobec 32 % F1 dla Claude Code, podczas gdy jego wyspecjalizowana multimodalna pipeline osiągała 53 do 61 % F1. To ciekawy wynik, ale nie przenosi się automatycznie na twierdzenie o autonomicznym budowaniu exploitów.

Dla zespołów security ważniejszy jest harness niż flaga modelu

Skutek operacyjny jest mniej geopolityczny, a bardziej praktyczny. W cyberbezpieczeństwie model to tylko część systemu. Harness decyduje, jaki kod model widzi, jak dostaje kontekst, jak weryfikuje znaleziska, jak uruchamia testy i kto zatwierdza akcję o realnych skutkach.

GLM-5.2 jako model open-weight może być bardzo atrakcyjny, zwłaszcza dla zespołów szukających niższych kosztów, lokalnej kontroli i mniejszej zależności od amerykańskich API. To jednak samo w sobie nie znaczy, że robi to samo co zamknięty system ograniczony wokół konkretnych zdolności bezpieczeństwa.

Dla menedżerów security lekcja jest prosta: nie kupować hasła „dogonili Anthropic”. Trzeba żądać powtarzalnych testów na własnym kodzie, jasnego opisu uprawnień agenta oraz metryk fałszywych alarmów i faktycznie exploitable znalezisk.

Bug finding to nie to samo co agent łączący exploity

Słabość publicznej debaty polega na tym, że słowo cybersecurity przykrywa bardzo różne zadania: analizę statyczną, CTF, triage, reprodukcję podatności i w pełni autonomiczny atak. Każde z nich ma inny profil ryzyka.

Jeśli model znajduje IDOR w dobrze przygotowanym benchmarku, to jest użyteczne. Jeśli bez szczegółowego prowadzenia przechodzi przez duży system i składa kilka błędów w działające włamanie, to inna kategoria bezpieczeństwa. Właśnie tę granicę nagłówki często zacierają.

O twierdzeniu powinny rozstrzygać publiczne evals, nie screenshot z jednego wyścigu

Kolejny sensowny sygnał musi przyjść z evals, które oddzielą wykrycie błędu od potwierdzonego exploitu i od długotrwałej autonomii. Jeden wynik F1 albo miejsce w OpenRouterze nie wystarczy, jeśli nie znamy kontekstu, narzędzi i uprawnień modelu.

Znaczenie będzie miało porównanie wielu modeli w tym samym harnessie, na tych samych repozytoriach i z publicznie opisanym scoringiem. Do tego czasu takie nagłówki lepiej czytać jako sygnał presji ze strony modeli otwartych, a nie jako gotowy wyrok o końcu amerykańskiej przewagi.

Werdykt Lilith

Benchmark to użyteczny termometr i fatalny sędzia. Gdy gazeta zakłada mu togę, zespół security zostaje z wykresem w ręku, a na korytarzu czeka niezapowiedziany napastnik.