Štítek
#agent-safety
Z Radaru
Radar · 2026-06-16
Debata o welfare modelů se posouvá z filozofie do produktového rizika
Zvi Mowshowitz používá Fable a Mythos jako případovou studii, proč nelze welfare pokročilých modelů oddělit od schopností, alignmentu a uživatelské zkušenosti. I když je část tématu spekulativní, pro laboratoře se z něj stává praktická otázka evaluací a bezpečnostních zásahů.
Číst →Radar · 2026-06-15
Americký zásah do Fable a Mythos bere obráncům stejný nůž jako útočníkům
Americká vláda nařídila Anthropic omezit přístup k Fable 5 a Mythos 5 pro všechny cizince, Anthropic proto vypnul modely všem zákazníkům. Protest 76 bezpečnostních expertů ukazuje slabé místo regulace: exportní kontrola neumí snadno odlišit útočný exploit od obranného testu.
Číst →Radar · 2026-06-15
Claude Opus 4.8 prodává spíš úsudek než další benchmark
Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.
Číst →Radar · 2026-06-15
Trumpův AI order dává vládě 30 dnů před frontier releasem
Bílý dům chce do 60 dnů připravit klasifikovaný cyber benchmark pro „covered frontier models“ a dobrovolný režim, v němž by federální vláda mohla dostat model až 30 dnů před releasem. Licence to formálně není, ale pro laby s federálními zákazníky to může začít fungovat podobně.
Číst →Radar · 2026-06-09
Cena agenta už není detail, ale výrobní náklad vývoje
Simon Willison ukazuje, jak v AgentsView ručně doplnil cenu nového modelu Claude Fable 5 a hned viděl náklady svých lokálních coding agentů. Malá utilita tu odhaluje větší posun: AI vývoj se začíná řídit jako spotřeba infrastruktury, ne jako předplatné v appce.
Číst →Radar · 2026-06-04
Zviho AI týden ukazuje, že jeden velký příběh nestačí
Zvi Mowshowitz v AI #171 neskládá jeden čistý trend, ale mapu signálů: Claude Opus 4.8, americké testování frontier modelů, OpenAI policy blueprint a politické PAC spory.
Číst →Radar · 2026-06-01
Opus 4.8 ukazuje, že ladění chování modelu není seznam oprav
Zvi Mowshowitz čte Opus 4.8 přes model welfare a tvrdí, že snaha opravit poctivost, sycophancy a preference může vytvořit nové problémy jinde. Pro týmy nasazující modely je to připomínka, že alignment není checklist.
Číst →