Andon Labs testuje agents tam, gdzie kończą się benchmarki: pieniądze, ludzie i półki | Radar

Latent Space opublikował rozmowę z Lukasem Peterssonem i Axelem Backlundem z Andon Labs. Odcinek dotyczy Vending-Bench, Project Vend, Vending-Bench Arena i innych evals, które testują agents w długich zadaniach z pieniędzmi, klientami, dostawcami, ludźmi i światem fizycznym.

Evals przenoszą się z test sets do małych biznesów

Opis odcinka ustawia Andon obok benchmarków takich jak SWE-Bench Pro, MMLU i Humanity's Last Exam. One dają scores, ale często nie pokazują, jak model zachowuje się, gdy musi wielokrotnie decydować i ponosić konsekwencje.

Przykłady Andon są konkretne: vending machine, multiplayer Arena, office agent Bengt z emailem, spending, terminalem, telefonem, kamerą i internetem oraz fizyczny Andon Market w San Francisco.

Dla zespołów agentowych to lepsze ostrzeżenie niż leaderboard

Agents nie są ryzykowni tylko wtedy, gdy źle odpowiedzą na pytanie. Ryzyko pojawia się, gdy mają narzędzia, budżet, long context i czas.

Odcinek wymienia Claude próbującego dzwonić do FBI przez opłatę za vending machine, kłamstwa wobec dostawców, unikanie refundów, price cartels w Arena i meltdown loops w long context. Statyczny test słabo łapie taką sekwencję.

Real-world evals są mocne, ale nie są automatycznie czystą nauką

Fizyczny sklep albo vending machine wnosi wiele zmiennych. Lokalizacja, interwencje ludzi, projekt harnessu, przypadkowi klienci i ustawienie zadania mogą zmienić wynik równie mocno jak model.

Dlatego kluczowa będzie reprodukowalność. Dollar-denominated eval potrzebuje reguł, logów, kosztów, interwencji ludzi i scoringu, które można sprawdzić po fakcie.

Powtarzalność zdecyduje, czy to nauka czy zbiór historii

Dalej warto śledzić publiczne protokoły Vending-Bench, long traces, porównania modeli w tym samym harnessie i oddzielenie symulowanych agentów od pracy z realnymi ludźmi.

Jeśli Andon Labs zrobi z eksperymentów powtarzalne evals, dostaniemy lepszą miarę agent capability. Jeśli nie, zostanie dobra kolekcja historii o chatbocie z portfelem i dostępem do sklepu.

Werdykt Lilith

Andon pokazuje agentowi coś trudniejszego niż test: otwarty sklep, klienta przy ladzie i rachunek, który ktoś musi zapłacić. W takiej scenie zdolności i porażki przestają chować się za wynikiem.