#agent-safety | Lilith AI

Radar · 2026-06-16

Debata o welfare modelů se posouvá z filozofie do produktového rizika

Zvi Mowshowitz používá Fable a Mythos jako případovou studii, proč nelze welfare pokročilých modelů oddělit od schopností, alignmentu a uživatelské zkušenosti. I když je část tématu spekulativní, pro laboratoře se z něj stává praktická otázka evaluací a bezpečnostních zásahů.

Číst →

Radar · 2026-06-15

Americký zásah do Fable a Mythos bere obráncům stejný nůž jako útočníkům

Americká vláda nařídila Anthropic omezit přístup k Fable 5 a Mythos 5 pro všechny cizince, Anthropic proto vypnul modely všem zákazníkům. Protest 76 bezpečnostních expertů ukazuje slabé místo regulace: exportní kontrola neumí snadno odlišit útočný exploit od obranného testu.

Číst →

Radar · 2026-06-15

Claude Opus 4.8 prodává spíš úsudek než další benchmark

Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.

Číst →

Radar · 2026-06-15

Trumpův AI order dává vládě 30 dnů před frontier releasem

Bílý dům chce do 60 dnů připravit klasifikovaný cyber benchmark pro „covered frontier models“ a dobrovolný režim, v němž by federální vláda mohla dostat model až 30 dnů před releasem. Licence to formálně není, ale pro laby s federálními zákazníky to může začít fungovat podobně.

Číst →

Radar · 2026-06-09

Cena agenta už není detail, ale výrobní náklad vývoje

Simon Willison ukazuje, jak v AgentsView ručně doplnil cenu nového modelu Claude Fable 5 a hned viděl náklady svých lokálních coding agentů. Malá utilita tu odhaluje větší posun: AI vývoj se začíná řídit jako spotřeba infrastruktury, ne jako předplatné v appce.

Číst →

Radar · 2026-06-04

Zviho AI týden ukazuje, že jeden velký příběh nestačí

Zvi Mowshowitz v AI #171 neskládá jeden čistý trend, ale mapu signálů: Claude Opus 4.8, americké testování frontier modelů, OpenAI policy blueprint a politické PAC spory.

Číst →

Radar · 2026-06-01

Opus 4.8 ukazuje, že ladění chování modelu není seznam oprav

Zvi Mowshowitz čte Opus 4.8 přes model welfare a tvrdí, že snaha opravit poctivost, sycophancy a preference může vytvořit nové problémy jinde. Pro týmy nasazující modely je to připomínka, že alignment není checklist.

Číst →