VAKRA benchmark odhaluje, kde agenti skutečně selhávají: výběr nástrojů, argumenty, vícekrokové plánování | Radar

IBM Research publikoval VAKRA (Verifiable Agent Knowledge Retrieval and Action), benchmark pro hodnocení agentů v prostředí připomínajícím enterprise. Jde o víc než tabulku s přesností: VAKRA testuje celé exekuční trajektorie na 8000+ lokálně hostovaných API přes 62 domén s ověřením každého kroku.

Benchmarky konečně měří, kde agenti krvácí, ne kde usměvavě odpovídají

Standardní benchmarky agentů obvykle hodnotí finální odpověď. VAKRA přidává vrstvu: ověřuje, zda agent zvolil správný nástroj, správně specifikoval argumenty a zda výsledná odpověď vychází z výstupu nástrojů, ne z halucinace. Čtyři testované oblasti jsou API chaining, výběr nástroje z velké sady (6 až 328 nástrojů per doména), vícekrokové uvažování a kombinace více zdrojů (API + dokumenty) s policy omezeními.

Výsledky jsou specifické: výkon degraduje s rostoucím počtem kroků (3+ hop úlohy výrazně hůře), modely selhávají na specifikaci argumentů i při správném výběru nástroje, a policy omezení způsobují pokles přesnosti o 30 až 50 %. To jsou konkrétní čísla k věcem, které vývojáři agentů empiricky tuší, ale dosud neměli systematicky změřené.

Pro týmy nasazující agenty to mění, jak přemýšlet o selhání

Dosud šel typický debugging agenta takto: agent vrátil špatný výsledek, proč? Zkoušíš lepší prompt, lepší model, jiný framework. VAKRA nabízí jiný rámec: rozděluje selhání na fáze (výběr nástroje, specifikace argumentů, hodnoty argumentů, syntéza odpovědi) a měří, kde v každém modelu přesně nastávají.

To je rozdíl mezi „agent je slabý na vícekrokové úlohy“ a „tento model selhává konkrétně na argument specification při 2+ hop plánování“. Druhý popis má opravitelný směr.

VAKRA měří za ideálních podmínek, korelace s produkcí závisí na vašem use case

VAKRA je akademický benchmark, ne produkční test. Lokálně hostovaná API jsou kontrolovaná prostředí bez šumu reálného provozu. Výsledky na leaderboardu říkají, co model dokáže za ideálních podmínek s přesně definovanými nástroji. Korelace s produkčními agenty v enterprise závisí na tom, nakolik jsou domény v benchmarku reprezentativní pro váš konkrétní use case.

Zároveň je dataset veřejně dostupný a prostředí reprodukovatelné. To je standard, který mnoho komerčně motivovaných benchmarků nemá.

Hodnota přijde, až výsledky začnou korelovat s produkčními výstupy

Sledovat: zda VAKRA výsledky korelují s reálným chováním agentů mimo testovací prostředí, a zda typy chyb, které benchmark identifikuje, odpovídají tomu, co provozní týmy vidí v praxi. Pokud ano, VAKRA se stane diagnostickým nástrojem. Pokud ne, zůstane akademickým papírem.

Lilithin verdikt

Konečně benchmark, který měří selhání agentů tam, kde se opravdu dějí: ne na finální odpovědi, ale na každém mezikroku. Pokud výsledky korelují s produkcí, VAKRA se stane diagnostickým nástrojem, který vývojáři agentů potřebují.