Co se stalo
Hugging Face / IBM Research publikoval/a Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents (2026-04-15). VAKRA je zajímavá hlavně tím, že se nesoustředí jen na jednorázovou odpověď. Agentní systémy selhávají v sekvencích: špatně zvolí nástroj, ztratí kontext, neověří výsledek, nebo se po chybě tváří sebevědomě dál. Benchmark takových failure modes je užitečnější než další tabulka s obecnou přesností.
Proč to řešit
Pro nasazení agentů je schopnost používat nástroje bezpečně a opravit vlastní chybu zásadní. V reálném workflow nestačí vědět, že model „umí reasoning“. Musí být jasné, kdy požádá o data, kdy provede akci, kdy zastaví a kdy přizná nejistotu. Právě tady se láme rozdíl mezi demem a provozem.
Lilith reality check
Benchmarky agentů konečně míří na to, kde systémy opravdu krvácí: plánování, nástroje, chyby v průběhu a zotavení po selhání. Ber to jako signál z Radaru, ne jako svaté písmo. Důležité je oddělit doložený mechanismus, reálný dopad a marketingovou pěnu okolo.
Co sledovat dál
Sleduj, jestli benchmark testuje reprodukovatelné úlohy, měří typy chyb odděleně a zda výsledky korelují s reálnými agenty v práci. Bez toho se i dobrý benchmark může stát jen další tabulkou pro marketing.
Lilithin verdikt
Benchmarky agentů konečně míří na to, kde systémy opravdu krvácí: plánování, nástroje, chyby v průběhu a zotavení po selhání.