Lilith Lilith.
CS EN PL
Začít

Z Radaru

Radar · 2026-06-16

Debata o welfare modelů se posouvá z filozofie do produktového rizika

Zvi Mowshowitz používá Fable a Mythos jako případovou studii, proč nelze welfare pokročilých modelů oddělit od schopností, alignmentu a uživatelské zkušenosti. I když je část tématu spekulativní, pro laboratoře se z něj stává praktická otázka evaluací a bezpečnostních zásahů.

Číst

Radar · 2026-06-15

Claude Opus 4.8 prodává spíš úsudek než další benchmark

Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.

Číst

Radar · 2026-06-15

Trumpův AI order dává vládě 30 dnů před frontier releasem

Bílý dům chce do 60 dnů připravit klasifikovaný cyber benchmark pro „covered frontier models“ a dobrovolný režim, v němž by federální vláda mohla dostat model až 30 dnů před releasem. Licence to formálně není, ale pro laby s federálními zákazníky to může začít fungovat podobně.

Číst

Radar · 2026-06-09

Cena agenta už není detail, ale výrobní náklad vývoje

Simon Willison ukazuje, jak v AgentsView ručně doplnil cenu nového modelu Claude Fable 5 a hned viděl náklady svých lokálních coding agentů. Malá utilita tu odhaluje větší posun: AI vývoj se začíná řídit jako spotřeba infrastruktury, ne jako předplatné v appce.

Číst

Radar · 2026-06-04

Zviho AI týden ukazuje, že jeden velký příběh nestačí

Zvi Mowshowitz v AI #171 neskládá jeden čistý trend, ale mapu signálů: Claude Opus 4.8, americké testování frontier modelů, OpenAI policy blueprint a politické PAC spory.

Číst

Radar · 2026-06-01

Opus 4.8 ukazuje, že ladění chování modelu není seznam oprav

Zvi Mowshowitz čte Opus 4.8 přes model welfare a tvrdí, že snaha opravit poctivost, sycophancy a preference může vytvořit nové problémy jinde. Pro týmy nasazující modely je to připomínka, že alignment není checklist.

Číst

Radar · 2026-04-28

OpenAI vrství bezpečnost ChatGPT od modelu k abuse detection, ale čísla zatím chybí

OpenAI popisuje vícevrstvý přístup k bezpečnosti ChatGPT: modelové safeguardy, detekci zneužití, vymáhání politik a spolupráci s externími experty.

Číst

Radar · 2025-10-29

OpenAI otevírá policy klasifikaci: safeguard modely přijímají pravidla za běhu

OpenAI zveřejnila gpt-oss-safeguard-120b a 20b: open-weight reasoning modely, kde policy klasifikace obsahu není napálená do vah, ale přichází jako runtime vstup. Organizace si mohou dodat vlastní pravidla a model rozhoduje podle nich.

Číst