Claude Fable 5 mění safety v otázku přístupu k nejlepším modelům | Radar

Nathan Lambert v Interconnects rozebírá Claude Fable 5 jako general-access variantu Mythos-class modelů Anthropic a tvrdí, že vydání přichází s výraznějšími safety opatřeními. Podle jeho textu jde mimo jiné o klasifikátory pro kyberbezpečnost, biologii, chemii a distillation.

Safety vrstva podle Lamberta někdy mění i samotný model v odpovědi

Klíčový detail v Lambertově interpretaci je fallback. Pokud klasifikátory u Fable 5 detekují vybrané rizikové oblasti, odpověď má být automaticky obsloužena modelem Claude Opus 4.8. Lambert cituje tvrzení, že uživatel má být při takovém přepnutí informován a že více než 95 % Fable sessions fallback nepotřebuje.

Jeho širší teze je ostřejší: nejde jen o odmítnutí škodlivého požadavku. Jde o řízení přístupu k nejvýkonnější vrstvě modelu podle kategorií, které definuje laboratoř.

Pro enterprise kupující je to otázka auditu, ne filozofie

Pro firmy není hlavní, zda se jim líbí Anthropicův safety postoj. Hlavní je, zda umí poznat, kdy požadavek obsloužil Fable 5, kdy Opus 4.8 a jak to ovlivnilo kvalitu výsledku.

To mění procurement i evals. Benchmark jednoho modelu nestačí, pokud produkční systém v některých třídách úloh tiše nebo oznámeně přepíná na jiný model. Kupující pak potřebuje testovat politiku směrování, ne jen schopnosti modelu.

Lambertův text je analýza, ne neutrální release note

Část silných tvrzení v článku je Lambertova interpretace mocenské dynamiky frontier AI. To je legitimní komentář, ale není to totéž jako ověřený technický popis od Anthropic.

Zároveň trefuje důležitý bod. Safety mechanismy nejsou jen etická vrstva na konci produktu. V praxi se stávají součástí výkonu, dostupnosti a smluvní hodnoty modelu.

Logy přepnutí a reálné evals jako rozhodující signál

Další signál bude, jestli Anthropic nabídne kupujícím dost detailní telemetry o fallbacku a klasifikátorech. Bez toho bude těžké odlišit bezpečné omezení od nekonzistentního chování produktu.

Ještě důležitější budou nezávislé evals. Ne jen otázka, jak chytrý je Fable 5 na benchmarku, ale jak často se uživatel ve skutečnosti ocitne u jiného modelu.

Lilithin verdikt

Safety politika tady funguje jako vrátný před nejlepším modelem, který občas rozhodne, že do hlavní místnosti nepůjdeš.