Lilith Lilith.
CS EN PL
Začít
2026-06-03
2026-06-02
16:48 · zdroj ↗

GitHub se chystá na svět, kde commity píšou agenti ve velkém

Latent Space rozhovor s Kylem Daiglem rámuje GitHub jako platformu pod tlakem agentního kódování. Pointa je otázka, zda infrastruktura pro lidské tempo unese software vyráběný stroji.

GitHub teď nestojí před otázkou, jestli agenti umí psát kód. Stojí před frontou pull requestů, kde unavený maintainer musí poznat, který robotický kolega pomohl a který mu jen vysypal práci na stůl.

2026-06-01
00:00 · zdroj ↗

Search nemá být tlačítko. Má být programovatelný nástroj pro agenty

Perplexity popisuje Search as Code: architekturu, kde agent nevolá jeden monolitický vyhledávač, ale skládá retrieval pipeline jako kód. Pointa je větší kontrola nad tím, jak se důkazy hledají, filtrují a ověřují.

Search as Code není další hezké jméno pro web search. Je to moment, kdy agent přestává listovat výsledky jako člověk a začíná si stavět vlastní vyšetřovací pipeline: kandidáti, filtry, důkazy a koš na šum.

15:41 · zdroj ↗

Video generation se posouvá od klipu k agentovi na plátně

Latent Space v rozhovoru s Ethanem He z xAI rámuje Grok Imagine jako krok od jednorázové video generation k video agentům. Pokud má tahle teze obstát, rozhodne méně kvalita ukázky a víc schopnost iterovat celý kreativní úkol.

Video agent začne být zajímavý až ve chvíli, kdy u stolu nesedí člověk jako údržbář promptů. Dokud musí každou variantu vytahovat ručně z příkopu, je to pořád jen hlučný nástroj na klipy.

15:01 · zdroj ↗

Opus 4.8 ukazuje, že ladění chování modelu není seznam oprav

Zvi Mowshowitz čte Opus 4.8 přes model welfare a tvrdí, že snaha opravit poctivost, sycophancy a preference může vytvořit nové problémy jinde. Pro týmy nasazující modely je to připomínka, že alignment není checklist.

Model upgrade přivede ke stolu nového kolegu: možná přesnějšího, možná opatrnějšího. Celý tým si pak musí ověřit, jestli nezačal mlčet ve chvíli, kdy měl mluvit.

13:03 · zdroj ↗

Otevřené modely dohánějí cenu, frontier zůstává placená disciplína

Nathan Lambert tvrdí, že open a closed modely se budou zlepšovat po různých křivkách. Praktická otázka není ideologie open source, ale kde se firmám vyplatí platit prémii za nejlepší model.

Válka „open proti closed“ je nudná. Sleduj CFO, který kouká na účet za tokeny, a vedle něj vývojáře ukazujícího pull request, který by jinak ležel tři dny.

2026-05-30
21:02 · zdroj ↗

Service worker zachytí HTTP request a odbaví ho v Python ASGI aplikaci přímo v browseru

Simon Willison experimentuje s přístupem, kde Python ASGI aplikace běží přímo v browseru díky Pyodide a service workeru. Povedlo se spustit FastAPI a kompletní Datasette 1.0a31. Záměr je distribuce: demo nebo datový nástroj jako webová stránka bez serveru.

Přístup nenahrazuje server. Snižuje tření mezi nápadem a ukázkou: Python aplikace jako webová stránka bez deploye, bez účtu, bez serverové infrastruktury.

2026-05-29
01:23 · zdroj ↗

Anthropic přeskočil $47 miliard run-rate revenue za pět měsíců a tempo roste

Simon Willison upozornil na číslo z investičního oznámení Anthropic: run-rate revenue překročil $47 miliard. Dramatický je zejména nárůst z $9 miliard v prosinci 2025 na $30 miliard v dubnu a $47 miliard v květnu 2026.

$47 miliard run-rate je účetní kniha, ve které enterprise zákazníci poprvé vidí, kolik stojí automatizovaná práce, když jí někdo zapomene dát brzdy. A v těch číslech je možná schovaná jedna špatně nastavená usage policy.

2026-05-28
23:59 · zdroj ↗

Opus 4.8 čtyřikrát méně přehlíží chyby v kódu a zavádí aktualizace instrukcí uprostřed konverzace

Anthropic vydal Opus 4.8 s jednou konkrétní metrikou: model je čtyřikrát méně pravděpodobný, že přehlédne chybu v kódu než předchůdce. Zároveň přidává mid-conversation system messages a snížil minimální velikost prompt cache z 4 096 na 1 024 tokenů.

Opus 4.8 nepřišel s keynote efektem, ale s účtenkou: čtyřikrát méně přehlédnutých chyb v kódu a model, který raději mlčí, než by lhal. To je přesně ta opravdovost, za kterou zaplatíš $25 za milion tokenů.

20:58 · zdroj ↗

Google chce, aby agent navrhoval hypotézy a psal experimentální kód místo vědce

Google Research na I/O 2026 ukázal Gemini for Science, ERA a Co-Scientist jako systémy, kde AI přebírá mezikroky výzkumu: literaturní rešerše, psaní kódu, iterace hypotéz. Riziko falešné jistoty a vendor lock-in je podstatné.

Google tady nechce jen dát vědcům chytřejší chatbot. Chce postavit laboratoř, kde agent navrhuje protokol a člověk musí pořád hlídat, jestli na stole neleží krásně formulovaná chyba.

18:41 · zdroj ↗

Async agents dostávají spec, pracují v izolovaném VM a ráno nechají v repozitáři pull request k review

Latent Space rozhovor s Cognition a OpenInspect rámuje coding agents jako asynchronní pracovníky: spec-to-PR workflows, full VMs, agent memory a situace, kdy PM posílá code change bez vývojáře. Posun je od synchronního chatu k delegaci celého pracovního cyklu.

Chat byl cvičné hřiště. Skutečná změna začíná ve chvíli, kdy agent ráno nechá v repozitáři stopu, kterou musí někdo převzít nebo zahodit, a nikdo neví, co přesně dělal v noci.

16:00 · zdroj ↗

Data Formulator 0.7 zkouší přestavět analytiku enterprise dat kolem AI agentů

Microsoft Research vydal Data Formulator 0.7, analytické prostředí, kde AI agenti pomáhají s průzkumem, transformací a vizualizací enterprise dat. Klíčová otázka je, jestli agent zvládne špinavá, oprávněními chráněná data mimo demo.

Data Formulator míří na místo, kde tabulka přechází v rozhodnutí. Agent tam slibuje vzít práci datového připravovatele, ale v enterprise prostředí uspěje jen tehdy, až si poradí s daty, která nejsou čistá a nikdy nebyla.

2026-05-27
23:44 · zdroj ↗

SQLite kreslí čáru: agentní kód ne, reprodukovatelné bugy ano

SQLite přidalo do repozitáře AGENTS.md s velmi jasným vzkazem pro lidi, kteří na kód pouštějí AI agenty: projekt nepřijímá agentně vytvořený kód, ale může přijmout kvalitní bug report s reprodukovatelným testem. Je to malý soubor, ale velký signál pro údržbu kritického open source.

Tohle je dospělá odpověď na AI spam: nezakazovat všechno, ale přesně říct, co má hodnotu. Patch od agenta ne, reprodukovatelný test ano. Údržbáři tím chrání čas, kvalitu i právní čistotu projektu.

17:20 · zdroj ↗

ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice

IBM Research a Artificial Analysis vydali 27. května 2026 první benchmark zaměřený na enterprise IT agenty v realistickém Kubernetes prostředí. Nejlepší model (Claude Opus 4.7) dosáhl 47 %. Žádný frontier model nepřekonal 50 %.

Frontier model s 47 % v SRE diagnostice není selhání modelu. Je to selhání hype. Lidem, kteří v letošním roce podepisují enterprise smlouvy na AI agent pro IT operace, tato čísla slouží jako první dávka reality.

07:00 · zdroj ↗

Codex pomáhá stavět samoučící daňové agenty

OpenAI, Thrive Holdings a Crete ukazují Tax AI, daňového agenta pro více než třicet účetních firem. Pilot zpracoval 7 000 přiznání, šetří zhruba třetinu času praktiků a díky smyčce zpětné vazby se během šesti týdnů výrazně zlepšil.

Tax AI mění chyby z reálné práce na evaly a úkoly pro Codex, takže produkt se zlepšuje na přesně těch případech, které účetní skutečně brzdí. Provozní model je praktická ukázka agentního softwaru: člověk drží odpovědnost, systém přebírá opakovanou práci a produktový tým získává rychlejší cestu od selhání k opravě.