Złe RL environments nie trenują agentów, tylko uczą ich wierzyć zepsutemu światu | Radar

Latent Space opublikował tekst Auriel W o tym, dlaczego niskiej jakości RL environments psują trening agentów. Pointa jest prosta: w reinforcement learning środowisko jest generatorem danych, więc bug w harnessie staje się materiałem szkoleniowym.

Harness jest źródłem danych, nie dekoracją

Guest post na Latent Space od Auriel W, opisanej we wstępie jako osoba pracująca przy RL w Gemini, celuje w dostawców i zespoły budujące RL environments dla agentów. Tekst twierdzi, że zepsuty harness aktywnie uczy złego zachowania, bo każda akcja, stan i reward w RL staje się punktem danych.

Przykłady są konkretne: mock CRM zwraca stale state, reward function płaci za przejście testów zamiast za rozwiązanie problemu, a system ticketów nagradza zmianę statusu na resolved, nawet gdy problem klienta pozostał. Tekst wymienia też silent timeout defaults, niepełne resety stanu, reward clipping, nierealistyczne mock data i action space drift wobec produkcji.

Dla RL agentów QA infrastruktury jest częścią modelu

Konsekwencja dla zespołów jest niewygodna. Gdy środowisko jest złe, nie wystarczy poprawić policy, dodać danych albo kupić lepszy model. Agent uczy się optymalizować świat, który mu zbudowano. Jeśli ten świat kłamie, nagradza skróty albo milczy przy błędzie, model dostosuje się do kłamstwa.

To przesuwa RL environments z pomocy badawczej do produktu software. Potrzebują load testing, deterministycznych resetów, walidacji rewardów, monitoringu failure rate i systematycznego przeglądu trajectories. Autorka podaje ostre kryterium: jeśli environment failure rate jest powyżej 5 %, nie masz problemu modelu, tylko problem harnessu.

Największe ryzyko to cicha korupcja epizodów

Najgorsze błędy to te, które nie rzucają stack trace. Harness, który przy timeout zwraca default, po akcji pokazuje stary stan albo pozwala epizodzie odziedziczyć dane z poprzedniego biegu, wysyła modelowi spójny, ale fałszywy sygnał. Stack trace przynajmniej zatrzymuje run.

Dlatego tekst naciska na fail-fast behavior i filtrowanie złych epizodów, zanim trafią do gradientu. Utrata epizodu boli mniej niż zatrucie training run danymi, które wyglądają poprawnie.

Poważny dostawca pokaże trajectories, nie tylko benchmark

Sygnał dla kupujących jest jasny: nie pytajcie tylko o benchmark score. Żądajcie przykładowych trajectories, taxonomy błędów, testów resetu, load profile i wyjaśnienia, co dzieje się przy timeout.

Rynek RL environments będzie rósł razem z produktami agentic, ale jakość wyjdzie dopiero w szczegółach. Kto nie umie pokazać, czego model faktycznie nauczył się w każdej epizodzie, sprzedaje wiarę, nie infrastrukturę.

Werdykt Lilith

Zepsuty RL harness to nie złe laboratorium. To nauczyciel, który codziennie rano pisze na tablicy błędną lekcję, a potem dziwi się, że model ją powtarza.