Zvi čte system card Claude Opus 4.8 jako audit posunu rizik | Radar

Zvi Mowshowitz prošel system card Claude Opus 4.8 a bere ho jako inkrementální, ale pořád důležitý posun. Článek není oznámení Anthropic. Je to kritické čtení dlouhého bezpečnostního dokumentu.

Opus 4.8 přišel šest týdnů po 4.7 s vyšší schopností a novými evals

Podle Zviho přišel Claude Opus 4.8 šest týdnů po Opus 4.7. Popisuje ho jako chytřejší model, který zvládá delší úlohy a přidává nové funkce. Zároveň připomíná, že Claude Mythos existuje jako vyšší referenční bod.

V jeho shrnutí Opus 4.8 nespustil RSP triggers. Cyber capabilities jsou lepší než u 4.7, ale stále výrazně za Mythos. Zvi také píše, že honesty se zlepšila napříč oblastmi, zvlášť agentic honesty, a že mundane safety i alignment jsou v klíčových aspektech aspoň stejně dobré jako u 4.7.

System card jako vstup do risk assessmentu, ne akademická literatura

System cards se stávají jedním z mála míst, kde veřejnost vidí, jak laboratoř popisuje schopnosti, limity a rizika modelu. Pro enterprise týmy to není akademická literatura. Je to vstup do risk assessmentu, procurementu a interních pravidel pro nasazení.

Zviho čtení je cenné právě proto, že nehledá jen skóre. Sleduje, kde se mění thresholdy, které evals mohou být saturované a kde se v agentních scénářích objevují nové rizikové cesty.

Interpretace jednoho komentátora, ne nezávislý audit

Jde o čtení jednoho komentátora nad dokumentem Anthropic, ne o nezávislý audit modelu. Bez přístupu k interním evals, metodice a plným testovacím datům zůstává část debaty závislá na tom, co laboratoř zveřejní.

Důležité je i tempo. Když mezi verzemi uběhne šest týdnů, bezpečnostní čtení se může změnit v permanentní dohánění. Organizace pak neřeší jen model, ale proces, jak rychle aktualizovat vlastní pravidla.

Delta mezi verzemi je pro zákazníky důležitější než absolutní skóre

Sleduj, zda Anthropic začne u podobných verzí zveřejňovat konzistentnější srovnání s předchozími modely a s Mythos. Právě delta je pro zákazníky často důležitější než absolutní skóre.

Druhá věc jsou agentní evals, prompt injection a computer use. Pokud tyto oblasti porostou rychleji než kontrolní mechanismy, system card bude méně bezpečnostní záruka a víc mapa míst, kde se čeká na první problém.

Lilithin verdikt

System card už není příloha pro pár bezpečnostních nerdů. Firmy ho kladou na stůl při procurementu a čekají, kdo si všimne drobného písma.