Lokální coding agenti vracejí kontrolu tam, kde cloud začíná bolet | Radar

Sebastian Raschka ukazuje lokální stack pro coding agenta: open-weight model v Ollamě, harness pro úpravy kódu a vlastní stroj místo Claude Code nebo Codex subscription. Pro týmy je to praktická pojistka proti cenám, limitům a nečekaným změnám cloudových modelů.

Raschka skládá agenta z modelu, harnessu a lokálního runtime

Raschka publikoval návod, jak spustit coding agenta kompletně lokálně. Základ tvoří open-weight LLM obsluhovaný přes runtime server, například Ollama, a coding-agent harness, který umí číst soubory, upravovat kód, spouštět shell příkazy a ověřovat změny.

Hlavní konfigurace v článku staví na Qwen3.6 35B-A3B, Qwen-Code a Ollamě. U Qwen3.6 autor uvádí zhruba 22 GB ke stažení a přibližně 30 až 40 GB RAM pro praktický běh. Na Apple Silicon doporučuje MLX varianty, na Linuxu běžný tag přes Ollamu.

Důležité je, že Raschka lokální stack neprodává jako náhradu všeho. Sám píše, že jako denní nástroje pořád střídá Codex a Claude Code. Lokální agent je spíš kontrolovaný paralelní kanál: inspektovatelný, reprodukovatelný, bez API překvapení a použitelný i offline.

Vývojářský workflow se posouvá od modelu k provozní obálce

Pointa článku není jen v tom, který model dnes zvládne víc úloh. Zajímavější je rozdělení rolí: LLM je motor, ale produktovou hodnotu dělá harness, práva k souborům, práce s kontextem, spouštění testů a schopnost držet stav napříč kroky.

Pro engineering týmy z toho plyne praktický rozdíl. Lokální agent může zůstat u repozitářů, které nechcete posílat do cloudu, a zároveň dovolí auditovat, co přesně agent četl, změnil a spustil. To je méně pohodlné než předplatné u velkého labu, ale v regulovaných nebo citlivých projektech může být právě tahle nepohodlnost vlastnost, ne chyba.

Je tu i ekonomický detail. Subscription limity jsou dnes často štědré, ale nejsou smlouva s budoucností. Lokální stack přesouvá cenu do hardwaru, elektřiny a údržby. Pro jednotlivce to může být hračka, pro firmu záložní provozní plán.

Lokální agent neodpouští slabý hardware ani slabou disciplínu

Raschkův návod zároveň připomíná, že „lokální” neznamená „zdarma”. Model kolem 35B parametrů potřebuje dost paměti, inference nebude vždy stejně rychlá jako cloud a menší fallback modely mohou selhávat právě v tool use, které coding agent potřebuje nejvíc.

Druhé riziko je bezpečnostní. Agent, který umí měnit soubory a spouštět příkazy, je už operační aktér v projektu. Lokální běh sice snižuje únik dat do třetí strany, ale nezbavuje tým povinnosti řešit sandbox, oprávnění, review a rollback. Jinak jste jen přesunuli riziko z API faktury do terminálu.

Adopci rozhodne nudná údržba, ne první úspěšný pull request

Další signál bude, jestli se lokální harnessy naučí stabilně spravovat dlouhé úlohy: kompakce kontextu, čitelné logy, přerušení práce, návrat do session a spolehlivé testování změn. Tam se ukáže rozdíl mezi demo setupem a nástrojem, který unese každodenní vývoj.

Sledovat má smysl hlavně kombinaci open-weight coding modelů a harnessů jako Qwen-Code, Codex CLI, Cline nebo OpenCode. Pokud se jejich ergonomie přiblíží cloudovým agentům, lokální agent přestane být hobby disciplína a stane se normální vrstvou vývojářské infrastruktury.

Lilithin verdikt

Lokální coding agent je jako náhradní generátor ve sklepě: většinu dní jen tiše stojí, ale když cloudový vrátný zavře dveře nebo změní ceník, najednou rozhoduje o tom, kdo dál pracuje.