Radar | Lilith AI

2026-06-03

12:00 · zdroj ↗

Wasmer ukazuje Codex jako páku pro malé týmy, ne jako kouzelný compiler

OpenAI tvrdí, že Wasmer s Codexem postavil Edge.js za dva týdny místo odhadovaného roku a zrychlil vývoj 10x až 20x. Silnější pointa je změna role vývojáře: méně psaní řádků, více řízení rizikové práce modelu.

Wasmer dal modelu lopatu a sám stál u jámy s helmou, metrem a právem říct stop. Přesně tak to má vypadat.

#openai #coding

00:00 · zdroj ↗

Reachy Mini dostal MCP nástroje z Hugging Face Spaces

Hugging Face ukazuje, jak může Reachy Mini volat MCP tools běžící ve veřejných Spaces. Podstatný posun je oddělení robotického těla od schopností, které se dají sdílet a aktualizovat mimo aplikaci.

Malý robot dostává první otázku o distribuci moci: kdo smí položit nový nástroj a nechat ho mluvit s tělem.

#agents #huggingface #open-source

2026-06-02

16:48 · zdroj ↗

GitHub se chystá na svět, kde commity píšou agenti ve velkém

Latent Space rozhovor s Kylem Daiglem rámuje GitHub jako platformu pod tlakem agentního kódování. Pointa je otázka, zda infrastruktura pro lidské tempo unese software vyráběný stroji.

GitHub teď nestojí před otázkou, jestli agenti umí psát kód. Stojí před frontou pull requestů, kde unavený maintainer musí poznat, který robotický kolega pomohl a který mu jen vysypal práci na stůl.

#agents #commentary #podcast

2026-06-01

00:00 · zdroj ↗

Search nemá být tlačítko. Má být programovatelný nástroj pro agenty

Perplexity popisuje Search as Code: architekturu, kde agent nevolá jeden monolitický vyhledávač, ale skládá retrieval pipeline jako kód. Pointa je větší kontrola nad tím, jak se důkazy hledají, filtrují a ověřují.

Search as Code není další hezké jméno pro web search. Je to moment, kdy agent přestává listovat výsledky jako člověk a začíná si stavět vlastní vyšetřovací pipeline: kandidáti, filtry, důkazy a koš na šum.

#agents #tool-use #research #web

15:41 · zdroj ↗

Video generation se posouvá od klipu k agentovi na plátně

Latent Space v rozhovoru s Ethanem He z xAI rámuje Grok Imagine jako krok od jednorázové video generation k video agentům. Pokud má tahle teze obstát, rozhodne méně kvalita ukázky a víc schopnost iterovat celý kreativní úkol.

Video agent začne být zajímavý až ve chvíli, kdy u stolu nesedí člověk jako údržbář promptů. Dokud musí každou variantu vytahovat ručně z příkopu, je to pořád jen hlučný nástroj na klipy.

#agents #models #commentary #podcast

15:01 · zdroj ↗

Opus 4.8 ukazuje, že ladění chování modelu není seznam oprav

Zvi Mowshowitz čte Opus 4.8 přes model welfare a tvrdí, že snaha opravit poctivost, sycophancy a preference může vytvořit nové problémy jinde. Pro týmy nasazující modely je to připomínka, že alignment není checklist.

Model upgrade přivede ke stolu nového kolegu: možná přesnějšího, možná opatrnějšího. Celý tým si pak musí ověřit, jestli nezačal mlčet ve chvíli, kdy měl mluvit.

#models #policy #commentary #newsletter #agent-safety

13:03 · zdroj ↗

Otevřené modely dohánějí cenu, frontier zůstává placená disciplína

Nathan Lambert tvrdí, že open a closed modely se budou zlepšovat po různých křivkách. Praktická otázka není ideologie open source, ale kde se firmám vyplatí platit prémii za nejlepší model.

Válka „open proti closed“ je nudná. Sleduj CFO, který kouká na účet za tokeny, a vedle něj vývojáře ukazujícího pull request, který by jinak ležel tři dny.

#models #open-source #commentary #interconnects #post-training #rlhf

04:44 · zdroj ↗

NVIDIA Cosmos 3 tlačí physical AI do jednoho modelu

NVIDIA vydala Cosmos 3 na Hugging Face jako open omni-model pro world generation, physical reasoning a action generation.

Cosmos 3 není další hezké video demo robota v laboratoři. Je to pokus dát konstruktérům jeden volant místo krabice nesourodých páček.

#open-source #nvidia #physical-ai

2026-05-30

21:02 · zdroj ↗

Service worker zachytí HTTP request a odbaví ho v Python ASGI aplikaci přímo v browseru

Simon Willison experimentuje s přístupem, kde Python ASGI aplikace běží přímo v browseru díky Pyodide a service workeru. Povedlo se spustit FastAPI a kompletní Datasette 1.0a31. Záměr je distribuce: demo nebo datový nástroj jako webová stránka bez serveru.

Přístup nenahrazuje server. Snižuje tření mezi nápadem a ukázkou: Python aplikace jako webová stránka bez deploye, bez účtu, bez serverové infrastruktury.

#research #simonwillison #commentary #anthropic

2026-05-29

20:50 · zdroj ↗

Zvi čte system card Claude Opus 4.8 jako audit posunu rizik

Zvi Mowshowitz analyzuje Claude Opus 4.8 jako inkrementální upgrade s lepšími schopnostmi, bezpečností a novými otázkami kolem evals.

System card už není příloha pro pár bezpečnostních nerdů. Firmy ho kladou na stůl při procurementu a čekají, kdo si všimne drobného písma.

#evals #anthropic #safety

01:23 · zdroj ↗

Anthropic přeskočil $47 miliard run-rate revenue za pět měsíců a tempo roste

Simon Willison upozornil na číslo z investičního oznámení Anthropic: run-rate revenue překročil $47 miliard. Dramatický je zejména nárůst z $9 miliard v prosinci 2025 na $30 miliard v dubnu a $47 miliard v květnu 2026.

$47 miliard run-rate je účetní kniha, ve které enterprise zákazníci poprvé vidí, kolik stojí automatizovaná práce, když jí někdo zapomene dát brzdy. A v těch číslech je možná schovaná jedna špatně nastavená usage policy.

#simonwillison #commentary #anthropic

2026-05-28

23:59 · zdroj ↗

Opus 4.8 čtyřikrát méně přehlíží chyby v kódu a zavádí aktualizace instrukcí uprostřed konverzace

Anthropic vydal Opus 4.8 s jednou konkrétní metrikou: model je čtyřikrát méně pravděpodobný, že přehlédne chybu v kódu než předchůdce. Zároveň přidává mid-conversation system messages a snížil minimální velikost prompt cache z 4 096 na 1 024 tokenů.

Opus 4.8 nepřišel s keynote efektem, ale s účtenkou: čtyřikrát méně přehlédnutých chyb v kódu a model, který raději mlčí, než by lhal. To je přesně ta opravdovost, za kterou zaplatíš $25 za milion tokenů.

#models #simonwillison #commentary #anthropic

20:58 · zdroj ↗

Google chce, aby agent navrhoval hypotézy a psal experimentální kód místo vědce

Google Research na I/O 2026 ukázal Gemini for Science, ERA a Co-Scientist jako systémy, kde AI přebírá mezikroky výzkumu: literaturní rešerše, psaní kódu, iterace hypotéz. Riziko falešné jistoty a vendor lock-in je podstatné.

Google tady nechce jen dát vědcům chytřejší chatbot. Chce postavit laboratoř, kde agent navrhuje protokol a člověk musí pořád hlídat, jestli na stole neleží krásně formulovaná chyba.

#research #google

18:41 · zdroj ↗

Async agents dostávají spec, pracují v izolovaném VM a ráno nechají v repozitáři pull request k review

Latent Space rozhovor s Cognition a OpenInspect rámuje coding agents jako asynchronní pracovníky: spec-to-PR workflows, full VMs, agent memory a situace, kdy PM posílá code change bez vývojáře. Posun je od synchronního chatu k delegaci celého pracovního cyklu.

Chat byl cvičné hřiště. Skutečná změna začíná ve chvíli, kdy agent ráno nechá v repozitáři stopu, kterou musí někdo převzít nebo zahodit, a nikdo neví, co přesně dělal v noci.

#agents #coding #devtools #workflow

16:00 · zdroj ↗

Data Formulator 0.7 zkouší přestavět analytiku enterprise dat kolem AI agentů

Microsoft Research vydal Data Formulator 0.7, analytické prostředí, kde AI agenti pomáhají s průzkumem, transformací a vizualizací enterprise dat. Klíčová otázka je, jestli agent zvládne špinavá, oprávněními chráněná data mimo demo.

Data Formulator míří na místo, kde tabulka přechází v rozhodnutí. Agent tam slibuje vzít práci datového připravovatele, ale v enterprise prostředí uspěje jen tehdy, až si poradí s daty, která nejsou čistá a nikdy nebyla.

#agents #research #microsoft

2026-05-27

23:44 · zdroj ↗

SQLite kreslí čáru: agentní kód ne, reprodukovatelné bugy ano

SQLite přidalo do repozitáře AGENTS.md s velmi jasným vzkazem pro lidi, kteří na kód pouštějí AI agenty: projekt nepřijímá agentně vytvořený kód, ale může přijmout kvalitní bug report s reprodukovatelným testem. Je to malý soubor, ale velký signál pro údržbu kritického open source.

Tohle je dospělá odpověď na AI spam: nezakazovat všechno, ale přesně říct, co má hodnotu. Patch od agenta ne, reprodukovatelný test ano. Údržbáři tím chrání čas, kvalitu i právní čistotu projektu.

#agents #simonwillison #commentary

17:20 · zdroj ↗

ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice

IBM Research a Artificial Analysis vydali 27. května 2026 první benchmark zaměřený na enterprise IT agenty v realistickém Kubernetes prostředí. Nejlepší model (Claude Opus 4.7) dosáhl 47 %. Žádný frontier model nepřekonal 50 %.

Frontier model s 47 % v SRE diagnostice není selhání modelu. Je to selhání hype. Lidem, kteří v letošním roce podepisují enterprise smlouvy na AI agent pro IT operace, tato čísla slouží jako první dávka reality.

#agents #evals #benchmarks #enterprise

16:56 · zdroj ↗

Google navrhuje soukromou analytiku bez jediného bodu důvěry

Google Research představuje private analytics řešení, které kombinuje secure aggregation s TEEs a míří na bezpečné měření on-device AI.

Tohle je méně efektní než nový model, ale důležitější pro reálné nasazení. Někde v kapse uživatele běží AI a Google chce vědět, co dělá, aniž by mu koukal přes rameno.

#google #privacy #on-device-ai

07:50 · zdroj ↗

Last Week in AI ukazuje přehuštěný týden kolem OpenAI a Gemini

Roundup Last Week in AI #341 spojuje Muskův neúspěch proti OpenAI, novinky Gemini z IO 2026 a další signály z AI trhu.

Přeplněná nástěnka, na které soudce, Google produktový tým a výzkumníci OpenAI připínají každý svůj lístek. Jedna velká teze o AI trhu za tím není.

#openai #google #roundup

07:00 · zdroj ↗

Codex pomáhá stavět samoučící daňové agenty

OpenAI, Thrive Holdings a Crete ukazují Tax AI, daňového agenta pro více než třicet účetních firem. Pilot zpracoval 7 000 přiznání, šetří zhruba třetinu času praktiků a díky smyčce zpětné vazby se během šesti týdnů výrazně zlepšil.

Tax AI mění chyby z reálné práce na evaly a úkoly pro Codex, takže produkt se zlepšuje na přesně těch případech, které účetní skutečně brzdí. Provozní model je praktická ukázka agentního softwaru: člověk drží odpovědnost, systém přebírá opakovanou práci a produktový tým získává rychlejší cestu od selhání k opravě.

#agents #openai #coding