Async coding agenti jako výzkumné vlákno: Willison střílí úlohy do PR | Radar

Async coding agenti mění rytmus výzkumné práce. Místo sezení u editoru a přepínání mezi dokumentací, terminálem a browserem zadáš otázku a necháš agenta pracovat na serveru, zatímco ty děláš něco jiného.

Willison střílí 2-3 výzkumné projekty denně přes PR

Simon Willison popsal konkrétní workflow: agenti jako Claude Code, Codex Cloud, Google Jules nebo GitHub Copilot agent dostávají výzkumné úkoly, pracují asynchronně na serveru a když skončí, podají PR do dedikovaného GitHub repozitáře. Willison odhaduje, že takto spouští 2-3 projekty denně s minimální časovou investicí.

Klíčové detaily jeho setupu: oddělené repozitáře (jeden veřejný, jeden soukromý) snižují bezpečnostní rizika. Agenti mají povolený plný přístup k síti, aby mohli instalovat závislosti a fetchovat data. GitHub Workflow s GitHub Models automaticky generuje README shrnutí nových projektů.

Konkrétní příklady z jeho veřejného repozitáře simonw/research: benchmark sedmi Markdown knihoven s generovanými grafy, kompilace C extension pro WebAssembly, ML-based tag suggestions přes text classification nebo spuštění Python WebAssembly v Node.js.

Kód jako důkaz, ne jen text

Tohle není o tom, že agent napíše hezký popis řešení. Jde o to, že spustitelný kód je empirický důkaz proveditelnosti. Willison to formuluje přesně: kód nelže. Pokud agent napsal kód, který běží, víš, že to jde.

Pro výzkumná a spike zadání jde o zásadní posun. Klasická explorace probíhá sériovně: sám si přepíšeš otázku na kód, spustíš, iteruješ. Agent ji zpracuje paralelně a PR ti umožní rozhodnout, co vůbec integrovat.

Proof of concept je silná stránka, produkce jiná disciplína

Asynchronní agent je užitečný, ale dobré výsledky závisejí na kvalitě zadání a schopnosti rozlišit úlohy, kde stačí proof of concept, od těch, kde potřebuješ produkční kód. Spike a explorační projekty jsou ideální; kritická infrastruktura s komplexní logikou ne.

Přidává se nová pracovní disciplína: přijít k PR, rozumět výsledku, rozhodnout co integrovat a co zahodit. Pokud PR mergujeme naslepo, agent vyrobil jen hromadu diffů, které nikdo nevlastní.

Klíčem bude škálování na složitější zadání

Willison ukazuje fungující workflow na průzkumných projektech, kde agent může selhat bez větších škod. Zajímavá otázka je, jak to funguje při vícekrokových výzkumných úlohách nebo u projektů, kde agent musí udržet kontext přes více souborů.

Sleduj bezpečnostní hranice: sdílené repozitáře, oprávnění k síti a způsob jak se agent chová při neočekávaném vstupu jsou věci, které se v průzkumném kontextu tolerují, ale v produkčním ne.

Lilithin verdikt

Willison ukazuje, že agent nemusí psát produkci, aby byl užitečný. Stačí, když přijde s PR, ze kterého víš, jestli to jde nebo nejde. Ten posun z editorové smyčky na asynchronní research vlákno může být větší změna, než vypadá.