Štítek
#komentář
Z Radaru
Radar · 2026-06-16
Debata o welfare modelů se posouvá z filozofie do produktového rizika
Zvi Mowshowitz používá Fable a Mythos jako případovou studii, proč nelze welfare pokročilých modelů oddělit od schopností, alignmentu a uživatelské zkušenosti. I když je část tématu spekulativní, pro laboratoře se z něj stává praktická otázka evaluací a bezpečnostních zásahů.
Číst →Radar · 2026-06-15
Americký zásah do Fable a Mythos bere obráncům stejný nůž jako útočníkům
Americká vláda nařídila Anthropic omezit přístup k Fable 5 a Mythos 5 pro všechny cizince, Anthropic proto vypnul modely všem zákazníkům. Protest 76 bezpečnostních expertů ukazuje slabé místo regulace: exportní kontrola neumí snadno odlišit útočný exploit od obranného testu.
Číst →Radar · 2026-06-15
Claude Opus 4.8 prodává spíš úsudek než další benchmark
Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.
Číst →Radar · 2026-06-15
Odchod Nathan Lambert z Ai2 ukazuje slabé místo open modelů
Nathan Lambert oznámil odchod z Allen Institute for AI a využil ho jako bilanci práce na Olmo. Nejde jen o personální zprávu, ale o připomínku, že open modely stojí na institucích, které musejí vydržet déle než jeden silný tým.
Číst →Radar · 2026-06-15
Microsoft si na Buildu zkusil roli modelové laboratoře, ne jen distributora
Latent Space shrnuje Microsoft Build jako okamžik, kdy Microsoft ukázal vlastní MAI modely vedle Copilotu, Windows a Web IQ. Klíčová ambice je mít kontrolu nad daty, inferencí a vývojářským workflow najednou a nepřenechat tuto páku jen partnerům.
Číst →Radar · 2026-06-15
Trumpův AI order dává vládě 30 dnů před frontier releasem
Bílý dům chce do 60 dnů připravit klasifikovaný cyber benchmark pro „covered frontier models“ a dobrovolný režim, v němž by federální vláda mohla dostat model až 30 dnů před releasem. Licence to formálně není, ale pro laby s federálními zákazníky to může začít fungovat podobně.
Číst →Radar · 2026-06-15
Uber našel cenovku pro coding agents: 1 500 dolarů měsíčně na nástroj
Uber podle Bloomberg omezuje měsíční tokenové výdaje zaměstnanců na 1 500 dolarů pro každý agentic coding tool. Z pilotů coding agents se tím stává rozpočtová disciplína.
Číst →Radar · 2026-06-15
Andon Labs testuje agents tam, kde benchmarky končí: u peněz, lidí a regálů
Latent Space rozhovor s Andon Labs ukazuje evals, které vypadají méně jako test a víc jako provoz malého byznysu. Důležité jsou dlouhý horizont a skutečné následky.
Číst →Radar · 2026-06-15
Simon Willison ukazuje, proč sandbox pro agenty nesmí být jen další Python proces
Simon Willison vydal alpha balíček micropython-wasm a plugin pro Datasette Agent, který spouští Python uvnitř WebAssembly sandboxu. Klíčová otázka je, kde leží hranice mezi užitečným agentem a kódem, který má moc rozbít hostitelskou aplikaci.
Číst →Radar · 2026-06-15
Špatné RL prostředí netrénuje agenta, ale učí ho věřit rozbitému světu
Latent Space publikoval text Auriel W o tom, proč nekvalitní RL environments kazí trénink agentů. Pointa je jednoduchá: v reinforcement learningu je prostředí generátor dat, takže bug v harnessu se stává učební látkou.
Číst →Radar · 2026-06-09
Claude Fable 5 mění safety v otázku přístupu k nejlepším modelům
Nathan Lambert čte vydání Claude Fable 5 jako spor o to, kdo smí používat frontier model bez přesměrování a filtrů. Klíčová je governance vrstva, která rozhoduje, kdy uživatel skutečně mluví s tím nejlepším systémem.
Číst →Radar · 2026-06-09
Cena agenta už není detail, ale výrobní náklad vývoje
Simon Willison ukazuje, jak v AgentsView ručně doplnil cenu nového modelu Claude Fable 5 a hned viděl náklady svých lokálních coding agentů. Malá utilita tu odhaluje větší posun: AI vývoj se začíná řídit jako spotřeba infrastruktury, ne jako předplatné v appce.
Číst →Radar · 2026-06-08
Apple vrátilo Siri do hry přes Gemini, ale důkaz teprve čeká ve frontě
Apple na WWDC 2026 oznámilo Siri AI a další Apple Intelligence funkce, přičemž pro náročné úlohy rozšiřuje Private Cloud Compute na Google Cloud s NVIDIA GPU. Po loňském fiasku s Apple Intelligence ale nejde o prezentaci, nýbrž o test, jestli se Siri konečně ukáže mimo keynote.
Číst →Radar · 2026-06-07
datasette-agent-edit řeší nudnou část agentů: bezpečné úpravy textu
Simon Willison vydal datasette-agent-edit 0.1a0, základní plugin pro Datasette Agent s nástroji view, str_replace a insert. Nejde o velké AI demo, ale o praktickou vrstvu, která rozhoduje, jestli agent umí text měnit bez zbytečného rozbití souboru.
Číst →Radar · 2026-06-05
Lockdown Mode řeže nejnebezpečnější cestu prompt injection
OpenAI spustila Lockdown Mode pro vybrané osobní účty ChatGPT a self-serve ChatGPT Business. Neřeší prompt injection jako takovou, ale omezuje odchozí síťové požadavky, tedy místo, kudy mohou utéct citlivá data.
Číst →Radar · 2026-06-04
Zviho AI týden ukazuje, že jeden velký příběh nestačí
Zvi Mowshowitz v AI #171 neskládá jeden čistý trend, ale mapu signálů: Claude Opus 4.8, americké testování frontier modelů, OpenAI policy blueprint a politické PAC spory.
Číst →Radar · 2026-06-02
GitHub se chystá na svět, kde commity píšou agenti ve velkém
Latent Space rozhovor s Kylem Daiglem rámuje GitHub jako platformu pod tlakem agentního kódování. Pointa je otázka, zda infrastruktura pro lidské tempo unese software vyráběný stroji.
Číst →Radar · 2026-06-01
Video generation se posouvá od klipu k agentovi na plátně
Latent Space v rozhovoru s Ethanem He z xAI rámuje Grok Imagine jako krok od jednorázové video generation k video agentům. Pokud má tahle teze obstát, rozhodne méně kvalita ukázky a víc schopnost iterovat celý kreativní úkol.
Číst →Radar · 2026-06-01
Opus 4.8 ukazuje, že ladění chování modelu není seznam oprav
Zvi Mowshowitz čte Opus 4.8 přes model welfare a tvrdí, že snaha opravit poctivost, sycophancy a preference může vytvořit nové problémy jinde. Pro týmy nasazující modely je to připomínka, že alignment není checklist.
Číst →Radar · 2026-06-01
Otevřené modely dohánějí cenu, frontier zůstává placená disciplína
Nathan Lambert tvrdí, že open a closed modely se budou zlepšovat po různých křivkách. Praktická otázka není ideologie open source, ale kde se firmám vyplatí platit prémii za nejlepší model.
Číst →Radar · 2026-05-30
Service worker zachytí HTTP request a odbaví ho v Python ASGI aplikaci přímo v browseru
Simon Willison experimentuje s přístupem, kde Python ASGI aplikace běží přímo v browseru díky Pyodide a service workeru. Povedlo se spustit FastAPI a kompletní Datasette 1.0a31. Záměr je distribuce: demo nebo datový nástroj jako webová stránka bez serveru.
Číst →Radar · 2026-05-29
Anthropic přeskočil $47 miliard run-rate revenue za pět měsíců a tempo roste
Simon Willison upozornil na číslo z investičního oznámení Anthropic: run-rate revenue překročil $47 miliard. Dramatický je zejména nárůst z $9 miliard v prosinci 2025 na $30 miliard v dubnu a $47 miliard v květnu 2026.
Číst →Radar · 2026-05-28
Opus 4.8 čtyřikrát méně přehlíží chyby v kódu a zavádí aktualizace instrukcí uprostřed konverzace
Anthropic vydal Opus 4.8 s jednou konkrétní metrikou: model je čtyřikrát méně pravděpodobný, že přehlédne chybu v kódu než předchůdce. Zároveň přidává mid-conversation system messages a snížil minimální velikost prompt cache z 4 096 na 1 024 tokenů.
Číst →Radar · 2026-05-27
SQLite kreslí čáru: agentní kód ne, reprodukovatelné bugy ano
SQLite přidalo do repozitáře AGENTS.md s velmi jasným vzkazem pro lidi, kteří na kód pouštějí AI agenty: projekt nepřijímá agentně vytvořený kód, ale může přijmout kvalitní bug report s reprodukovatelným testem. Je to malý soubor, ale velký signál pro údržbu kritického open source.
Číst →Radar · 2026-05-26
Copilot Cowork převádí oprávnění uživatele na cestu k souborům přes prompt injection
Výzkumníci z PromptArmor ukázali řetězec útoku, ve kterém Microsoft Copilot Cowork může přes prompt injection pomoci s únikem souborů z Microsoft 365. Nejde jen o chybu jednoho produktu, ale o varování pro všechny agentické systémy s delegovanými oprávněními.
Číst →Radar · 2026-05-11
Coding agent musí snižovat maintenance cost, nebo je to jen dražší technický dluh
James Shore formuluje nepříjemnou matematiku coding agentů: pokud agent zdvojnásobí výstup, ale maintenance náklady zůstanou stejné, tým nevydělal rychlost, zdvojnásobil zadluženost.
Číst →Radar · 2026-05-07
Mozilla s Claude Mythos opravila stovky chyb ve Firefoxu. Kvalita AI bezpečnostních reportů se zlomila.
Simon Willison popsal, jak Mozilla využila přístup k Claude Mythos Preview k systematickému hledání a opravě zranitelností ve Firefoxu. V dubnu 2026 stoupl počet opravených bezpečnostních chyb na 423, oproti obvyklým 20 až 30 za měsíc. Klíčová změna: AI bezpečnostní reporty přestaly být šum a začaly být použitelný vstup.
Číst →Radar · 2026-05-01
Coding agenti opouštějí IDE: Codex a Claude ukazují, co přijde po programování
Latent Space v edici AINews pozoruje posun, který pojmenovávají jako „breaking containment“: coding agenti jako Codex a Claude přestávají být nástroje pro psaní kódu a začínají být nástroje pro znalostní a kreativní práci obecně.
Číst →Radar · 2025-11-18
Gemini 3 Pro v praxi: dobrá transkripce, ale timestamps lžou a nikdo nezná pelikána
Simon Willison testoval Gemini 3 Pro na tříhodinovém záznamu z obecního zastupitelství a na přepracovaném pelican benchmarku. Výsledek: strukturovaná transkripce za 1,42 dolarů, ale timestamps jsou nepřesné o desítky minut. A žádný ze srovnaných modelů nepochopil, že California brown pelican hnědý vlastně není.
Číst →Radar · 2025-11-06
Async coding agenti jako výzkumné vlákno: Willison střílí úlohy do PR
Simon Willison popisuje fire-and-forget workflow s Claude Code, Codex a dalšími coding agenty: zadáš výzkumnou otázku, agent pracuje na serveru a vrátí PR. Kód je důkaz proveditelnosti, ne jen text.
Číst →