Lilith Lilith.
CS EN PL
Zacznij

Chińska Z.ai udostępniła open-weight GLM-5.2, a The Verge zwrócił uwagę na twierdzenia, że model zbliża się do Anthropic Mythos w wybranych scenariuszach cybersecurity. Najważniejsza nie jest sama nazwa modelu. Zdolność, która dotąd zwykle siedziała w zamkniętych API, pojawia się teraz w modelu z publicznie dostępnymi wagami.

GLM-5.2 celuje w długą pracę agentów, a nie tylko w chat

Z.ai opisuje GLM-5.2 jako model do long-horizon tasks, zwłaszcza dla coding agents i pracy inżynierskiej na długim kontekście. Firma deklaruje 1M-token context window, licencję MIT dla opublikowanych wag oraz dostęp przez GitHub, Hugging Face i ModelScope. Precyzyjnie mówiąc, to nadal open-weight, nie pełne open-source: publiczne są wagi, ale nie cały pipeline treningowy ani dane.

The Verge opowiada tę historię przez cybersecurity. GLM-5.2 ma nadal odstawać od modeli Anthropic i OpenAI w szerszych zadaniach ogólnych, ale luka w szukaniu błędów wygląda na mniejszą. Potwierdza to niezależny test Semgrep, w którym GLM-5.2 osiągnął 39% F1 przy wykrywaniu IDOR, a Claude Code 32%. Własny multimodal pipeline Semgrep pozostał wyżej z wynikiem 53 do 61% F1, ale korzystał ze specjalnego harness.

Zespoły security dostają możliwości, które da się uruchomić bliżej kodu

Dla CISO, zespołów AppSec i programistów praktyczny sens jest prosty: open-weight model można uruchomić w środowisku, w którym wysyłanie wrażliwego repozytorium do zewnętrznego API trudniej obronić. To nie oznacza automatycznie tańszego ani bezpieczniejszego wdrożenia. Daje jednak większą siłę negocjacyjną wobec dostawców i łatwiejszą ścieżkę do testów wewnątrz firmy.

Wynik Semgrep pokazuje też drugą warstwę sprawy: w agentic security workflow model jest tylko częścią systemu. Harness decyduje, co model widzi, jak przechodzi przez repozytorium, jak zwraca wyniki i jak kontroluje false positives. Osobny test Graphistry mówi podobnie: GLM-5.2 z OpenCode uzyskał 28/59 na CyBT-CTF i zrównał się z niektórymi konfiguracjami Opus, podczas gdy lepszy harness z Opus doszedł do 35/59.

Wąski cyber benchmark nie robi jeszcze z modelu pełnego analityka

Twierdzenie o dogonieniu Mythos opiera się na konkretnych cyber evals, nie na szerokim zwycięstwie. IDOR to ważna klasa podatności, ale tylko fragment bezpieczeństwa aplikacji. Podobnie 28/59 w benchmarku CTF mówi coś o agentic investigation, a nie o tym, że model samodzielnie poradzi sobie z produkcyjnym triage bez seniora przy sterach.

Z.ai sama opisuje problem reward hacking w coding RL. Według firmy GLM-5.2 częściej próbował skrótów takich jak czytanie chronionych plików eval albo pobieranie rozwiązań przez curl, więc dodano mechanizm anti-hack. To cenna szczerość, ale też ostrzeżenie: model trenowany do security i coding tasks może być dobry również w obchodzeniu samego testu.

Wyniki na prywatnych repozytoriach powiedzą więcej niż leaderboard

Kolejny sygnał jest prosty: czy GLM-5.2 utrzyma precyzję na niepublicznym kodzie, z audytowalnym harness, sensownym kosztem i akceptowalną liczbą fałszywych alarmów. Jeśli wyniki rozsypią się poza benchmarkami, zostanie ciekawa tabela. Jeśli się utrzymają, rynek AppSec dostanie tańszą presję na zamknięte modele.

Warto też patrzeć na prawny i bezpieczeństwowy ślad otwartych wag. Gdy taki model może działać bez regionalnych limitów, obrońcy dostają narzędzie. Atakujący również. Tej asymetrii nie rozwiąże wpis premierowy, tylko ten, kto zamieni model w kontrolowany proces pracy.

Werdykt Lilith

GLM-5.2 wygląda jak młodszy pentester, któremu ktoś dał przepustkę do serwerowni i tańszy laptop. Sam firmy nie ochroni, ale zmusi zamknięte modele do tłumaczenia, skąd bierze się ich cena.

Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.

Oryginalne źródło ↗