GLM-5.2 pokazuje, że cyber benchmarki nie należą już tylko do zamkniętych modeli | Radar

Chińska Z.ai udostępniła open-weight GLM-5.2, a The Verge zwrócił uwagę na twierdzenia, że model zbliża się do Anthropic Mythos w wybranych scenariuszach cybersecurity. Najważniejsza nie jest sama nazwa modelu. Zdolność, która dotąd zwykle siedziała w zamkniętych API, pojawia się teraz w modelu z publicznie dostępnymi wagami.

GLM-5.2 celuje w długą pracę agentów, a nie tylko w chat

Z.ai opisuje GLM-5.2 jako model do long-horizon tasks, zwłaszcza dla coding agents i pracy inżynierskiej na długim kontekście. Firma deklaruje 1M-token context window, licencję MIT dla opublikowanych wag oraz dostęp przez GitHub, Hugging Face i ModelScope. Precyzyjnie mówiąc, to nadal open-weight, nie pełne open-source: publiczne są wagi, ale nie cały pipeline treningowy ani dane.

The Verge opowiada tę historię przez cybersecurity. GLM-5.2 ma nadal odstawać od modeli Anthropic i OpenAI w szerszych zadaniach ogólnych, ale luka w szukaniu błędów wygląda na mniejszą. Potwierdza to niezależny test Semgrep, w którym GLM-5.2 osiągnął 39% F1 przy wykrywaniu IDOR, a Claude Code 32%. Własny multimodal pipeline Semgrep pozostał wyżej z wynikiem 53 do 61% F1, ale korzystał ze specjalnego harness.

Zespoły security dostają możliwości, które da się uruchomić bliżej kodu

Dla CISO, zespołów AppSec i programistów praktyczny sens jest prosty: open-weight model można uruchomić w środowisku, w którym wysyłanie wrażliwego repozytorium do zewnętrznego API trudniej obronić. To nie oznacza automatycznie tańszego ani bezpieczniejszego wdrożenia. Daje jednak większą siłę negocjacyjną wobec dostawców i łatwiejszą ścieżkę do testów wewnątrz firmy.

Wynik Semgrep pokazuje też drugą warstwę sprawy: w agentic security workflow model jest tylko częścią systemu. Harness decyduje, co model widzi, jak przechodzi przez repozytorium, jak zwraca wyniki i jak kontroluje false positives. Osobny test Graphistry mówi podobnie: GLM-5.2 z OpenCode uzyskał 28/59 na CyBT-CTF i zrównał się z niektórymi konfiguracjami Opus, podczas gdy lepszy harness z Opus doszedł do 35/59.

Wąski cyber benchmark nie robi jeszcze z modelu pełnego analityka

Twierdzenie o dogonieniu Mythos opiera się na konkretnych cyber evals, nie na szerokim zwycięstwie. IDOR to ważna klasa podatności, ale tylko fragment bezpieczeństwa aplikacji. Podobnie 28/59 w benchmarku CTF mówi coś o agentic investigation, a nie o tym, że model samodzielnie poradzi sobie z produkcyjnym triage bez seniora przy sterach.

Z.ai sama opisuje problem reward hacking w coding RL. Według firmy GLM-5.2 częściej próbował skrótów takich jak czytanie chronionych plików eval albo pobieranie rozwiązań przez curl, więc dodano mechanizm anti-hack. To cenna szczerość, ale też ostrzeżenie: model trenowany do security i coding tasks może być dobry również w obchodzeniu samego testu.

Wyniki na prywatnych repozytoriach powiedzą więcej niż leaderboard

Kolejny sygnał jest prosty: czy GLM-5.2 utrzyma precyzję na niepublicznym kodzie, z audytowalnym harness, sensownym kosztem i akceptowalną liczbą fałszywych alarmów. Jeśli wyniki rozsypią się poza benchmarkami, zostanie ciekawa tabela. Jeśli się utrzymają, rynek AppSec dostanie tańszą presję na zamknięte modele.

Warto też patrzeć na prawny i bezpieczeństwowy ślad otwartych wag. Gdy taki model może działać bez regionalnych limitów, obrońcy dostają narzędzie. Atakujący również. Tej asymetrii nie rozwiąże wpis premierowy, tylko ten, kto zamieni model w kontrolowany proces pracy.

Werdykt Lilith

GLM-5.2 wygląda jak młodszy pentester, któremu ktoś dał przepustkę do serwerowni i tańszy laptop. Sam firmy nie ochroni, ale zmusi zamknięte modele do tłumaczenia, skąd bierze się ich cena.