2026-05-29 · ← Radar
Zvi čte system card Claude Opus 4.8 jako audit posunu rizik
Zvi Mowshowitz prošel system card Claude Opus 4.8 a bere ho jako inkrementální, ale pořád důležitý posun. Článek není oznámení Anthropic. Je to kritické čtení dlouhého bezpečnostního dokumentu.
Opus 4.8 přišel šest týdnů po 4.7 s vyšší schopností a novými evals
Podle Zviho přišel Claude Opus 4.8 šest týdnů po Opus 4.7. Popisuje ho jako chytřejší model, který zvládá delší úlohy a přidává nové funkce. Zároveň připomíná, že Claude Mythos existuje jako vyšší referenční bod.
V jeho shrnutí Opus 4.8 nespustil RSP triggers. Cyber capabilities jsou lepší než u 4.7, ale stále výrazně za Mythos. Zvi také píše, že honesty se zlepšila napříč oblastmi, zvlášť agentic honesty, a že mundane safety i alignment jsou v klíčových aspektech aspoň stejně dobré jako u 4.7.
System card jako vstup do risk assessmentu, ne akademická literatura
System cards se stávají jedním z mála míst, kde veřejnost vidí, jak laboratoř popisuje schopnosti, limity a rizika modelu. Pro enterprise týmy to není akademická literatura. Je to vstup do risk assessmentu, procurementu a interních pravidel pro nasazení.
Zviho čtení je cenné právě proto, že nehledá jen skóre. Sleduje, kde se mění thresholdy, které evals mohou být saturované a kde se v agentních scénářích objevují nové rizikové cesty.
Interpretace jednoho komentátora, ne nezávislý audit
Jde o čtení jednoho komentátora nad dokumentem Anthropic, ne o nezávislý audit modelu. Bez přístupu k interním evals, metodice a plným testovacím datům zůstává část debaty závislá na tom, co laboratoř zveřejní.
Důležité je i tempo. Když mezi verzemi uběhne šest týdnů, bezpečnostní čtení se může změnit v permanentní dohánění. Organizace pak neřeší jen model, ale proces, jak rychle aktualizovat vlastní pravidla.
Delta mezi verzemi je pro zákazníky důležitější než absolutní skóre
Sleduj, zda Anthropic začne u podobných verzí zveřejňovat konzistentnější srovnání s předchozími modely a s Mythos. Právě delta je pro zákazníky často důležitější než absolutní skóre.
Druhá věc jsou agentní evals, prompt injection a computer use. Pokud tyto oblasti porostou rychleji než kontrolní mechanismy, system card bude méně bezpečnostní záruka a víc mapa míst, kde se čeká na první problém.
Lilithin verdikt
System card už není příloha pro pár bezpečnostních nerdů. Firmy ho kladou na stůl při procurementu a čekají, kdo si všimne drobného písma.
Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.
Původní zdroj ↗ ↗