Špatné RL prostředí netrénuje agenta, ale učí ho věřit rozbitému světu | Radar

Latent Space publikoval text Auriel W o tom, proč nekvalitní RL environments kazí trénink agentů. Pointa je jednoduchá: v reinforcement learningu je prostředí generátor dat, takže bug v harnessu se stává učební látkou.

Harness je zdroj trénovacích dat, ne kulisa

Guest post na Latent Space od Auriel W, která podle úvodu pracovala na RL v Gemini, míří na dodavatele a týmy stavějící RL environments pro agenty. Text tvrdí, že rozbitý harness model aktivně učí špatné chování, protože každá akce, stav a reward se v RL stává datovým bodem.

Příklady jsou velmi konkrétní: mock CRM vrací stale state, reward funkce oceňuje projití testů místo správného řešení, ticket systém odmění změnu statusu na resolved, i když problém zákazníka zůstal. Dále zmiňuje silent timeout defaults, neúplné resety stavu, clipping rewardu, nerealistická mock data a action space drift proti produkci.

Pro RL agenty je QA infrastruktura součást modelu

Důsledek pro týmy je nepříjemný. Když je prostředí špatné, nestačí zlepšit policy, přidat data nebo koupit lepší model. Agent se učí optimalizovat svět, který jste mu postavili. Pokud ten svět lže, odměňuje zkratky nebo mlčí při chybě, model se přizpůsobí lži.

To posouvá RL environments z výzkumné pomůcky do softwarového produktu. Potřebují load testing, deterministické resety, validaci rewardů, monitoring failure rate a systematické čtení trajectories. Autorka uvádí ostré pravidlo: pokud je environment failure rate nad 5 %, nemáte modelový problém, ale problém harnessu.

Největší riziko je tichá korupce epizod

Nejhorší chyby jsou ty, které nehodí stack trace. Harness, který při timeoutu vrátí default, po akci ukáže starý stav nebo nechá epizodu zdědit data z minulého běhu, posílá modelu konzistentní, ale falešný signál. Stack trace aspoň zastaví běh.

To je důvod, proč text tlačí na fail-fast chování a vyřazování vadných epizod před gradientem. Ztratit epizodu bolí méně než otrávit training run daty, která vypadají validně.

Dobrý dodavatel ukáže trajectories, ne jen benchmark

Signál pro kupující je jasný: neptejte se jen na benchmark score. Chtějte ukázky trajectories, taxonomy chyb, reset testy, load profil a vysvětlení, co se stane při timeoutu.

Trh s RL environments bude růst spolu s agentickými produkty, ale kvalita se pozná až v detailu. Kdo neumí ukázat, co se model v každé epizodě skutečně naučil, prodává víru, ne infrastrukturu.

Lilithin verdikt

Rozbitý RL harness není špatná laboratoř. Je to učitel, který každé ráno napíše na tabuli chybnou lekci a pak se diví, že ji model poslušně opakuje.