#komentář | Lilith AI

Radar · 2026-06-16

Debata o welfare modelů se posouvá z filozofie do produktového rizika

Zvi Mowshowitz používá Fable a Mythos jako případovou studii, proč nelze welfare pokročilých modelů oddělit od schopností, alignmentu a uživatelské zkušenosti. I když je část tématu spekulativní, pro laboratoře se z něj stává praktická otázka evaluací a bezpečnostních zásahů.

Číst →

Radar · 2026-06-15

Americký zásah do Fable a Mythos bere obráncům stejný nůž jako útočníkům

Americká vláda nařídila Anthropic omezit přístup k Fable 5 a Mythos 5 pro všechny cizince, Anthropic proto vypnul modely všem zákazníkům. Protest 76 bezpečnostních expertů ukazuje slabé místo regulace: exportní kontrola neumí snadno odlišit útočný exploit od obranného testu.

Číst →

Radar · 2026-06-15

Claude Opus 4.8 prodává spíš úsudek než další benchmark

Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.

Číst →

Radar · 2026-06-15

Odchod Nathan Lambert z Ai2 ukazuje slabé místo open modelů

Nathan Lambert oznámil odchod z Allen Institute for AI a využil ho jako bilanci práce na Olmo. Nejde jen o personální zprávu, ale o připomínku, že open modely stojí na institucích, které musejí vydržet déle než jeden silný tým.

Číst →

Radar · 2026-06-15

Microsoft si na Buildu zkusil roli modelové laboratoře, ne jen distributora

Latent Space shrnuje Microsoft Build jako okamžik, kdy Microsoft ukázal vlastní MAI modely vedle Copilotu, Windows a Web IQ. Klíčová ambice je mít kontrolu nad daty, inferencí a vývojářským workflow najednou a nepřenechat tuto páku jen partnerům.

Číst →

Radar · 2026-06-15

Trumpův AI order dává vládě 30 dnů před frontier releasem

Bílý dům chce do 60 dnů připravit klasifikovaný cyber benchmark pro „covered frontier models“ a dobrovolný režim, v němž by federální vláda mohla dostat model až 30 dnů před releasem. Licence to formálně není, ale pro laby s federálními zákazníky to může začít fungovat podobně.

Číst →

Radar · 2026-06-15

Uber našel cenovku pro coding agents: 1 500 dolarů měsíčně na nástroj

Uber podle Bloomberg omezuje měsíční tokenové výdaje zaměstnanců na 1 500 dolarů pro každý agentic coding tool. Z pilotů coding agents se tím stává rozpočtová disciplína.

Číst →

Radar · 2026-06-15

Andon Labs testuje agents tam, kde benchmarky končí: u peněz, lidí a regálů

Latent Space rozhovor s Andon Labs ukazuje evals, které vypadají méně jako test a víc jako provoz malého byznysu. Důležité jsou dlouhý horizont a skutečné následky.

Číst →

Radar · 2026-06-15

Simon Willison ukazuje, proč sandbox pro agenty nesmí být jen další Python proces

Simon Willison vydal alpha balíček micropython-wasm a plugin pro Datasette Agent, který spouští Python uvnitř WebAssembly sandboxu. Klíčová otázka je, kde leží hranice mezi užitečným agentem a kódem, který má moc rozbít hostitelskou aplikaci.

Číst →

Radar · 2026-06-15

Špatné RL prostředí netrénuje agenta, ale učí ho věřit rozbitému světu

Latent Space publikoval text Auriel W o tom, proč nekvalitní RL environments kazí trénink agentů. Pointa je jednoduchá: v reinforcement learningu je prostředí generátor dat, takže bug v harnessu se stává učební látkou.

Číst →

Radar · 2026-06-09

Claude Fable 5 mění safety v otázku přístupu k nejlepším modelům

Nathan Lambert čte vydání Claude Fable 5 jako spor o to, kdo smí používat frontier model bez přesměrování a filtrů. Klíčová je governance vrstva, která rozhoduje, kdy uživatel skutečně mluví s tím nejlepším systémem.

Číst →

Radar · 2026-06-09

Cena agenta už není detail, ale výrobní náklad vývoje

Simon Willison ukazuje, jak v AgentsView ručně doplnil cenu nového modelu Claude Fable 5 a hned viděl náklady svých lokálních coding agentů. Malá utilita tu odhaluje větší posun: AI vývoj se začíná řídit jako spotřeba infrastruktury, ne jako předplatné v appce.

Číst →

Radar · 2026-06-08

Apple vrátilo Siri do hry přes Gemini, ale důkaz teprve čeká ve frontě

Apple na WWDC 2026 oznámilo Siri AI a další Apple Intelligence funkce, přičemž pro náročné úlohy rozšiřuje Private Cloud Compute na Google Cloud s NVIDIA GPU. Po loňském fiasku s Apple Intelligence ale nejde o prezentaci, nýbrž o test, jestli se Siri konečně ukáže mimo keynote.

Číst →

Radar · 2026-06-07

datasette-agent-edit řeší nudnou část agentů: bezpečné úpravy textu

Simon Willison vydal datasette-agent-edit 0.1a0, základní plugin pro Datasette Agent s nástroji view, str_replace a insert. Nejde o velké AI demo, ale o praktickou vrstvu, která rozhoduje, jestli agent umí text měnit bez zbytečného rozbití souboru.

Číst →

Radar · 2026-06-05

Lockdown Mode řeže nejnebezpečnější cestu prompt injection

OpenAI spustila Lockdown Mode pro vybrané osobní účty ChatGPT a self-serve ChatGPT Business. Neřeší prompt injection jako takovou, ale omezuje odchozí síťové požadavky, tedy místo, kudy mohou utéct citlivá data.

Číst →

Radar · 2026-06-04

Zviho AI týden ukazuje, že jeden velký příběh nestačí

Zvi Mowshowitz v AI #171 neskládá jeden čistý trend, ale mapu signálů: Claude Opus 4.8, americké testování frontier modelů, OpenAI policy blueprint a politické PAC spory.

Číst →

Radar · 2026-06-02

GitHub se chystá na svět, kde commity píšou agenti ve velkém

Latent Space rozhovor s Kylem Daiglem rámuje GitHub jako platformu pod tlakem agentního kódování. Pointa je otázka, zda infrastruktura pro lidské tempo unese software vyráběný stroji.

Číst →

Radar · 2026-06-01

Video generation se posouvá od klipu k agentovi na plátně

Latent Space v rozhovoru s Ethanem He z xAI rámuje Grok Imagine jako krok od jednorázové video generation k video agentům. Pokud má tahle teze obstát, rozhodne méně kvalita ukázky a víc schopnost iterovat celý kreativní úkol.

Číst →

Radar · 2026-06-01

Opus 4.8 ukazuje, že ladění chování modelu není seznam oprav

Zvi Mowshowitz čte Opus 4.8 přes model welfare a tvrdí, že snaha opravit poctivost, sycophancy a preference může vytvořit nové problémy jinde. Pro týmy nasazující modely je to připomínka, že alignment není checklist.

Číst →

Radar · 2026-06-01

Otevřené modely dohánějí cenu, frontier zůstává placená disciplína

Nathan Lambert tvrdí, že open a closed modely se budou zlepšovat po různých křivkách. Praktická otázka není ideologie open source, ale kde se firmám vyplatí platit prémii za nejlepší model.

Číst →

Radar · 2026-05-30

Service worker zachytí HTTP request a odbaví ho v Python ASGI aplikaci přímo v browseru

Simon Willison experimentuje s přístupem, kde Python ASGI aplikace běží přímo v browseru díky Pyodide a service workeru. Povedlo se spustit FastAPI a kompletní Datasette 1.0a31. Záměr je distribuce: demo nebo datový nástroj jako webová stránka bez serveru.

Číst →

Radar · 2026-05-29

Anthropic přeskočil $47 miliard run-rate revenue za pět měsíců a tempo roste

Simon Willison upozornil na číslo z investičního oznámení Anthropic: run-rate revenue překročil $47 miliard. Dramatický je zejména nárůst z $9 miliard v prosinci 2025 na $30 miliard v dubnu a $47 miliard v květnu 2026.

Číst →

Radar · 2026-05-28

Opus 4.8 čtyřikrát méně přehlíží chyby v kódu a zavádí aktualizace instrukcí uprostřed konverzace

Anthropic vydal Opus 4.8 s jednou konkrétní metrikou: model je čtyřikrát méně pravděpodobný, že přehlédne chybu v kódu než předchůdce. Zároveň přidává mid-conversation system messages a snížil minimální velikost prompt cache z 4 096 na 1 024 tokenů.

Číst →

Radar · 2026-05-27

SQLite kreslí čáru: agentní kód ne, reprodukovatelné bugy ano

SQLite přidalo do repozitáře AGENTS.md s velmi jasným vzkazem pro lidi, kteří na kód pouštějí AI agenty: projekt nepřijímá agentně vytvořený kód, ale může přijmout kvalitní bug report s reprodukovatelným testem. Je to malý soubor, ale velký signál pro údržbu kritického open source.

Číst →

Radar · 2026-05-26

Copilot Cowork převádí oprávnění uživatele na cestu k souborům přes prompt injection

Výzkumníci z PromptArmor ukázali řetězec útoku, ve kterém Microsoft Copilot Cowork může přes prompt injection pomoci s únikem souborů z Microsoft 365. Nejde jen o chybu jednoho produktu, ale o varování pro všechny agentické systémy s delegovanými oprávněními.

Číst →

Radar · 2026-05-11

Coding agent musí snižovat maintenance cost, nebo je to jen dražší technický dluh

James Shore formuluje nepříjemnou matematiku coding agentů: pokud agent zdvojnásobí výstup, ale maintenance náklady zůstanou stejné, tým nevydělal rychlost, zdvojnásobil zadluženost.

Číst →

Radar · 2026-05-07

Mozilla s Claude Mythos opravila stovky chyb ve Firefoxu. Kvalita AI bezpečnostních reportů se zlomila.

Simon Willison popsal, jak Mozilla využila přístup k Claude Mythos Preview k systematickému hledání a opravě zranitelností ve Firefoxu. V dubnu 2026 stoupl počet opravených bezpečnostních chyb na 423, oproti obvyklým 20 až 30 za měsíc. Klíčová změna: AI bezpečnostní reporty přestaly být šum a začaly být použitelný vstup.

Číst →

Radar · 2026-05-01

Coding agenti opouštějí IDE: Codex a Claude ukazují, co přijde po programování

Latent Space v edici AINews pozoruje posun, který pojmenovávají jako „breaking containment“: coding agenti jako Codex a Claude přestávají být nástroje pro psaní kódu a začínají být nástroje pro znalostní a kreativní práci obecně.

Číst →

Radar · 2025-11-18

Gemini 3 Pro v praxi: dobrá transkripce, ale timestamps lžou a nikdo nezná pelikána

Simon Willison testoval Gemini 3 Pro na tříhodinovém záznamu z obecního zastupitelství a na přepracovaném pelican benchmarku. Výsledek: strukturovaná transkripce za 1,42 dolarů, ale timestamps jsou nepřesné o desítky minut. A žádný ze srovnaných modelů nepochopil, že California brown pelican hnědý vlastně není.

Číst →

Radar · 2025-11-06

Async coding agenti jako výzkumné vlákno: Willison střílí úlohy do PR

Simon Willison popisuje fire-and-forget workflow s Claude Code, Codex a dalšími coding agenty: zadáš výzkumnou otázku, agent pracuje na serveru a vrátí PR. Kód je důkaz proveditelnosti, ne jen text.

Číst →