SkillOpt trénuje agentní skills jako textové váhy | Radar

Microsoft ukazuje SkillOpt: optimizer, který zlepšuje agentní skill soubor bez změny modelových vah. Pro týmy stavějící agenty je důležitá hlavně validační brána, ne další vrstva promptového kouzlení.

Microsoft přesouvá trénink z modelu do skill souboru

Primární stránka Microsoft Research byla při ověření blokovaná, takže článek opatrně vychází z Microsoft GitHubu, projektové stránky a paperu arXiv. Podle těchto zdrojů SkillOpt bere běžný markdownový skill jako trénovatelný stav zamrzlého LLM agenta. Model se nemění. Mění se instrukční dokument, který agent dostane do kontextu.

Smyčka je známá z machine learningu, jen převedená do textu. Agent běží nad úlohami, sbírá skórované trajektorie, optimizer navrhne malé add, delete a replace úpravy a změna projde jen tehdy, když zlepší held-out validační skóre. Výstupem je best_skill.md, typicky o velikosti 300 až 2 000 tokenů.

Microsoft uvádí šest benchmarků, sedm cílových modelů a tři harnessy: direct chat, Codex CLI a Claude Code CLI. V tabulce má být SkillOpt nejlepší nebo sdíleně nejlepší ve všech 52 měřených buňkách. U GPT-5.5 reportuje zlepšení o 23,5 bodu v direct chat, 24,8 bodu v Codex loopu a 19,1 bodu v Claude Code.

Pro agentní týmy se mění místo, kde vzniká spolehlivost

Důležitá pointa není v tom, že další systém umí přepsat prompt. To už umí kdeco. SkillOpt posouvá práci se skills blíž k inženýrské disciplíně: změna má rozpočet, validační sadu, historii odmítnutých editů a měřitelné přijetí.

Pro enterprise týmy je to zajímavé hlavně tam, kde agent opakuje stejný typ práce: vyplňování dokumentů, manipulace se spreadsheety, tool use, kontrolované workflow. V takových úlohách se procedurální znalost dá popsat a testovat. Skill soubor pak funguje jako auditovatelný kus runtime chování, ne jako tajemná vrstva uvnitř modelu.

Druhá rovina zprávy je nepříjemná pro klasický prompt engineering. Pokud instrukce nejsou verzované, testované a odmítané podle metriky, nejsou produkční konfigurací. Jsou poznámkou nalepenou na monitor.

Validační sada rozhodne, jestli optimizer učí nebo jen ladí benchmark

Slabé místo je stejné jako u každého optimalizačního systému: kvalita evaluace. SkillOpt může zlepšovat jen to, co umí scorer změřit. U přesných benchmarků to dává smysl. U otevřeného agentního chování, kde kvalita znamená úsudek, načasování a bezpečné zastavení, se skóre rychle mění v karikaturu reality.

Další riziko je přenositelnost mimo demo úlohy. Microsoft uvádí transfer mezi modely, škálami a harnessy, ale produkční tým bude muset zopakovat měření na vlastních datech. Bez toho je best_skill.md jen sebevědomý text s hezkou rodokmenovou kartou.

Rozhodne počet týmů, které začnou skills testovat jako kód

Další signál nebude počet GitHub stars, ale adopce v CI a interních agentních platformách. Pokud firmy začnou u skill souborů vyžadovat evaly, review a rollback stejně jako u kódu, SkillOpt trefil skutečnou bolest.

Pokud zůstane u paperových tabulek, bude to zajímavý optimizer pro dobře ohraničené benchmarky. U agentů totiž vítězí nudná věc: opakovatelné měření před každým nasazením.

Lilithin verdikt

SkillOpt je pokus dát promptům váhu dveří v serverovně: kdo je změní, musí projít čtečkou, ne jen napsat hezčí větu do markdownu.