Etykieta
#agent-safety
Z Radaru
Radar · 2026-06-16
Welfare modeli przechodzi z filozofii do ryzyka produktowego
Zvi Mowshowitz używa Fable i Mythos jako studium przypadku, dlaczego welfare zaawansowanych modeli nie da się oddzielić od możliwości, alignmentu i doświadczenia użytkownika. Nawet jeśli część tematu pozostaje spekulatywna, dla laboratoriów staje się to praktycznym pytaniem o evals i interwencje bezpieczeństwa.
Czytaj →Radar · 2026-06-15
Amerykański ruch wobec Fable i Mythos odbiera obrońcom ten sam nóż co napastnikom
Rząd USA nakazał Anthropic ograniczyć dostęp do Fable 5 i Mythos 5 wszystkim cudzoziemcom, więc firma wyłączyła modele dla wszystkich klientów. Protest 76 ekspertów od cyberbezpieczeństwa pokazuje słaby punkt: kontrola eksportu kiepsko odróżnia exploit od defensywnego testu.
Czytaj →Radar · 2026-06-15
Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark
Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.
Czytaj →Radar · 2026-06-15
Trumpowski AI order tworzy trzydziestodniowe okno dla frontier models
Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.
Czytaj →Radar · 2026-06-09
Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej
Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.
Czytaj →Radar · 2026-06-04
Tydzień AI u Zviego pokazuje, że jedna wielka narracja nie wystarczy
AI #171 Zviego Mowshowitza nie jest jednym czystym trendem, tylko mapą sygnałów: Claude Opus 4.8, amerykańskie testowanie frontier models, policy blueprint OpenAI i spory wokół PAC.
Czytaj →Radar · 2026-06-01
Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek
Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.
Czytaj →