Fable 5 wraca, ale rząd zostawił mu cięższy hamulec bezpieczeństwa | Radar

Anthropic przywraca Claude Fable 5 po interwencji rządu USA. Firma podaje, że kontrole eksportowe nałożone 12 czerwca zostały zniesione 30 czerwca, a od 1 lipca Fable 5 jest ponownie dostępny globalnie w Claude Platform, Claude.ai, Claude Code i Claude Cowork.

Fable 5 wrócił po osiemnastu dniach rządowej blokady

Źródłem w kolejce Radaru jest komentarz Zvi Mowshowitza, ale najważniejsze fakty potwierdza też wpis Anthropic. Według firmy rząd USA 12 czerwca objął kontrolami eksportowymi Claude Fable 5 i Claude Mythos 5. Ponieważ Anthropic nie umiał wiarygodnie sprawdzać obywatelstwa użytkowników w czasie rzeczywistym, czasowo wyłączył dostęp wszystkim.

Firma twierdzi, że kontrole zniesiono 30 czerwca. Fable 5 wraca globalnie do Claude Platform, Claude.ai, Claude Code i Claude Cowork. W planach Pro, Max, Team i wybranych Enterprise do 7 lipca model wlicza się do 50 % tygodniowych limitów, później ma działać przez usage credits. Dostęp przez AWS, Google Cloud i Microsoft Foundry ma wrócić tak szybko, jak to możliwe.

Mythos 5 odzyskał dostęp dla wybranych amerykańskich organizacji po zgodzie rządu z 26 czerwca. Szerszy program Glasswing nadal będzie rozwijany stopniowo.

Polityczny alarm zamienił się w ograniczenie produktu dla zespołów security

Sprawa zaczęła się od raportu badaczy Amazona. Według Anthropic znaleźli oni sposób na obejście zabezpieczeń Fable 5 i skłonienie modelu do wskazania podatności w oprogramowaniu. W jednym przypadku model miał pokazać kod demonstrujący exploit. Anthropic twierdzi, że te same podatności albo tę samą demonstrację potrafiły wygenerować także słabsze modele, w tym Opus 4.8, GPT-5.5 i Kimi K2.7.

Kluczowe jest to, że spór nie skończył się na blogpoście. Efektem jest ostrzejszy classifier. Ma blokować zgłoszoną technikę w ponad 99 % przypadków, ale Anthropic przyznaje, że wzrośnie liczba fałszywych odmów przy zwykłym kodowaniu i debuggingu. Część zapytań spadnie więc do Opus 4.8.

Dla zespołów security to realny koszt. Model może być bezpieczniejszy wobec nadużyć, a jednocześnie mniej użyteczny w obronie, bo dobre i złe zapytania często wyglądają podobnie.

Nowy classifier gasi incydent, ale nie porządkuje zasad

Najmocniejsza teza Zvi brzmi: polityka USA wciąż działa ad hoc. To trafia w sedno. Jeśli jeden raport i polityczna eskalacja mogą wyłączyć frontier model wszystkim użytkownikom, laboratoria będą optymalizować nie tylko safety, lecz także relacje z rządem.

Anthropic chce wspólnego frameworku do oceny jailbreaków. Kierunek jest rozsądny. Problemem będzie precyzja. Ostrzejszy classifier dobrze wygląda w rozmowie z urzędnikiem, ale w produkcji liczy się, ile legalnych zapytań odrzuci i ilu użytkowników popchnie do słabszych, tańszych albo mniej kontrolowanych modeli.

Teraz trzeba mierzyć stosunek odmów do użyteczności

Warto obserwować trzy sygnały: jak szybko Anthropic ograniczy false positives, kiedy wrócą kanały chmurowe i czy branża dostanie standard zgłaszania jailbreaków, który nie zależy od telefonu do Waszyngtonu.

Fable 5 wrócił, ale rachunek za incydent będzie widoczny w każdym odrzuconym debuggingu. Jeśli to stanie się normą, polityka bezpieczeństwa zacznie układać workflow programistów tak samo mocno jak jakość samego modelu.

Werdykt Lilith

Fable 5 wrócił jak pasażer po zbędnej kontroli na lotnisku: walizka jest oklejona taśmą, wszyscy klaszczą, a dopiero przy bramce zobaczymy, ile potrzebnych rzeczy wyrzuciła ochrona.