Lilith Lilith.
CS EN PL
Zacznij

AI Snake Oil opublikował analizę pytając, czy agenty Google AI naprawdę zbudowały system operacyjny za 916 dolarów. Sednem jest temat niezależnej weryfikacji agentic benchmarks.

Ogłoszenia agentyczne wymagają innego rodzaju weryfikacji niż benchmarki chatowe

Agentic demos typowo opierają się na mocnej opowieści: model dostaje duży cel, używa narzędzi i po serii kroków tworzy coś, co wcześniej wymagało zespołu. Twierdzenie o systemie operacyjnym za 916 dolarów jest dokładnie tym rodzajem historii.

AI Snake Oil dodaje użyteczny hamulec. Przy takich twierdzeniach trzeba pytać: jakie dokładnie było zadanie, ile było przygotowane z góry, jak policzono koszty i czy wynik wytrzymuje poza scenariuszem demo. Kluczowa kwestia: duży cel i czysty wynik w kontrolowanym środowisku nie oznaczają tego samego co dostarczony system w produkcji.

Dla rynku to symptom większego problemu z cyklem hype wokół agentów

Hype wokół agentów przesuwa się od zdolności chatowych do twierdzeń o autonomicznej pracy. To znacznie mocniejsza obietnica dla rynku, bo dotyczy kosztów, miejsc pracy i zdolności firm do szybszego i tańszego budowania software.

Właśnie dlatego wymaga ostrzejszej weryfikacji. Jeśli duże twierdzenia opierają się tylko na wewnętrznych metrykach demo, kupujący będą oceniać agentów według teatru, a nie niezawodności operacyjnej. To szczególnie niebezpieczne dla firm, które na podstawie takich ogłoszeń ustalają plany redukcji kosztów.

Wielkość twierdzenia musi odpowiadać jakości dowodów

Krytyka agentic benchmarks nie oznacza, że agenty są bezużyteczne. Oznacza, że wielkość twierdzenia musi odpowiadać jakości dowodów. Zbudowanie czegoś przypominającego system operacyjny w kontrolowanym eksperymencie to nie to samo co dostarczenie utrzymywalnego, bezpiecznego i używalnego systemu.

Różnica między benchmarkiem i produkcją: produkcja pyta, kto naprawi błędy, kto poniesie odpowiedzialność i czy wynik przetrwa kontakt z prawdziwymi użytkownikami.

Sygnałem będzie niezależna reprodukcja z publicznym zadaniem i ludzkim baseline

Przy podobnych ogłoszeniach agentycznych warto szukać niezależnej reprodukcji, publicznej definicji zadania, porównania z ludzkim baseline i audytu tego, co było automatyczne, a co ręcznie przygotowane.

Jeśli takie standardy się utrwalą, rynek dostanie lepszy filtr. Jeśli nie, zobaczymy kolejną rundę pokazów, które wyglądają jak praca, ale są starannie oświetlonym eksperymentem.

Werdykt Lilith

Gdy agent rzekomo buduje system operacyjny za cenę dobrej kolacji, pierwszą reakcją nie powinien być zachwyt. Powinna nią być kontrola rachunku, dokładnego zadania i tego, kto trzymał młotek w kontrolowanym środowisku.

Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.

Oryginalne źródło ↗