Claude Fable 5 zmienia safety w pytanie o dostęp do najlepszego modelu | Radar

Nathan Lambert w Interconnects analizuje Claude Fable 5 jako general-access wariant Mythos-class models Anthropic i twierdzi, że wydaniu towarzyszą cięższe środki safety. Według jego tekstu obejmują one klasyfikatory dla cybersecurity, biologii, chemii i distillation.

Według Lamberta warstwa safety potrafi zmienić model za odpowiedzią

Kluczowym detalem w jego interpretacji jest fallback. Jeśli klasyfikatory Fable 5 wykryją wybrane obszary ryzyka, odpowiedź ma być automatycznie obsłużona przez Claude Opus 4.8. Lambert cytuje twierdzenie, że użytkownik ma być o tym informowany i że ponad 95 % Fable sessions nie wymaga fallbacku.

Jego szersza teza jest ostrzejsza: nie chodzi tylko o odmowę szkodliwego żądania. Chodzi o kontrolę dostępu do najmocniejszej warstwy modelu przez kategorie definiowane przez laboratorium.

Dla kupujących enterprise to kwestia audytu, nie seminarium z filozofii

Dla firm główne pytanie nie brzmi, czy podoba im się postawa Anthropic wobec safety. Pytanie brzmi, czy potrafią stwierdzić, kiedy żądanie obsłużył Fable 5, kiedy Opus 4.8 i jak wpłynęło to na jakość wyniku.

To zmienia procurement i evals. Benchmark jednego modelu nie wystarczy, jeśli system produkcyjny przełącza część klas zadań na inny model, po cichu albo z komunikatem. Kupujący muszą testować routing policy, nie tylko capability modelu.

Tekst Lamberta to analiza, nie neutralny release note

Część najmocniejszych twierdzeń w artykule to interpretacja Lamberta dotycząca dynamiki władzy w frontier AI. To uprawniony komentarz, ale nie to samo co zweryfikowany opis techniczny od Anthropic.

Mimo to główny problem jest trafiony. Mechanizmy safety nie są tylko etyczną warstwą na końcu produktu. W praktyce stają się częścią performance, dostępności i kontraktowej wartości modelu.

Logi fallbacku i realne evals użytkowników jako rozstrzygający sygnał

Kolejnym sygnałem będzie to, czy Anthropic da kupującym wystarczająco szczegółową telemetry o fallbacku i klasyfikatorach. Bez tego trudno odróżnić bezpieczne ograniczenie od niespójnego zachowania produktu.

Jeszcze ważniejsze będą niezależne evals. Nie tylko pytanie, jak mądry jest Fable 5 na benchmarku, ale jak często użytkownik w rzeczywistości trafia do innego modelu.

Werdykt Lilith

Safety policy działa tutaj jak bramkarz przed najlepszym modelem, który czasem decyduje, że nie wejdziesz do głównej sali.