SkillOpt trenuje agent skills jak tekstowe wagi | Radar

Microsoft pokazuje SkillOpt: optimizer, który poprawia plik skill agenta bez ruszania wag modelu. Dla zespołów budujących agentów najważniejsza jest bramka walidacyjna, a nie kolejna warstwa promptowej alchemii.

Microsoft przenosi trening z modelu do pliku skill

Główna strona Microsoft Research była podczas weryfikacji zablokowana, więc tekst ostrożnie opiera się na GitHubie Microsoftu, stronie projektu i metadanych paperu arXiv. Według tych źródeł SkillOpt traktuje zwykły markdownowy skill jako trenowalny stan zamrożonego agenta LLM. Model się nie zmienia. Zmienia się dokument z instrukcjami, który trafia do kontekstu agenta.

Pętla jest znajoma z machine learningu, tylko przeniesiona do tekstu. Agent wykonuje zadania, zbiera ocenione trajektorie, optimizer proponuje małe edycje add, delete i replace, a zmiana przechodzi tylko wtedy, gdy poprawia wynik na held-out validation. Artefaktem wdrożeniowym jest best_skill.md, zwykle od 300 do 2 000 tokenów.

Microsoft podaje sześć benchmarków, siedem modeli docelowych i trzy harnessy: direct chat, Codex CLI i Claude Code CLI. SkillOpt ma być najlepszy albo współnajlepszy we wszystkich 52 ocenianych komórkach. Dla GPT-5.5 Microsoft raportuje wzrost o 23,5 punktu w direct chat, 24,8 punktu w pętli Codex i 19,1 punktu w Claude Code.

Zespoły agentowe dostają nowe miejsce do budowania niezawodności

Sedno nie polega na tym, że kolejny system umie przepisać prompt. Takich narzędzi jest sporo. SkillOpt przesuwa pracę ze skills bliżej inżynierii: zmiana ma budżet, zbiór walidacyjny, pamięć odrzuconych edycji i mierzalną regułę akceptacji.

Dla zespołów enterprise najciekawsze są powtarzalne zadania agentów: obsługa dokumentów, arkusze, tool use i kontrolowane workflow. W takich domenach wiedzę proceduralną da się opisać i testować. Plik skill staje się audytowalnym elementem zachowania w runtime, a nie tajemniczą warstwą wewnątrz modelu.

Druga warstwa tej historii jest niewygodna dla klasycznego prompt engineeringu. Jeśli instrukcje nie mają wersji, testów i odrzuceń według metryki, nie są konfiguracją produkcyjną. Są karteczką przyklejoną do monitora.

Zbiór walidacyjny pokaże, czy optimizer uczy, czy tylko stroi benchmark

Słaby punkt jest taki sam jak w każdym systemie optymalizacji: jakość ewaluacji. SkillOpt może poprawiać tylko to, co scorer umie zmierzyć. Przy precyzyjnych benchmarkach to ma sens. Przy otwartym zachowaniu agentów, gdzie jakość oznacza osąd, wyczucie momentu i bezpieczne zatrzymanie, wynik szybko może stać się karykaturą rzeczywistości.

Drugim ryzykiem jest przenoszenie poza zadania demonstracyjne. Microsoft raportuje transfer między modelami, skalami i harnessami, ale zespół produkcyjny musi powtórzyć pomiar na własnych danych. Bez tego best_skill.md jest tylko pewnym siebie plikiem tekstowym z ładnym rodowodem.

Liczy się to, czy firmy zaczną testować skills jak kod

Kolejnym sygnałem nie będą GitHub stars, tylko adopcja w CI i wewnętrznych platformach agentowych. Jeśli firmy zaczną wymagać dla plików skill evals, review i rollbacku tak jak dla kodu, SkillOpt trafił w realny problem.

Jeśli zostanie przy tabelach z paperu, będzie ciekawym optimizerem do ograniczonych benchmarków. W agentach wygrywa nudna rzecz: powtarzalny pomiar przed każdym wdrożeniem.

Werdykt Lilith

SkillOpt próbuje nadać promptom ciężar drzwi do serwerowni: kto je zmienia, ma przejść przez czytnik, a nie tylko dopisać ładniejsze zdanie w markdownie.