SocialReasoning-Bench: agent úkol splní, ale pozici uživatele nezlepší | Radar

Microsoft Research popisuje SocialReasoning-Bench jako benchmark zaměřený na konkrétní slabé místo agentů: model může úkol provést kompetentně a pořád nemusí zlepšit pozici člověka, kterému má pomáhat. Klíčové pozorování: agenti technicky plní zadané úkoly, ale nezlepšují konzistentně výsledek pro uživatele, dokonce i když dostanou explicitní instrukci optimalizovat pro jeho zájem.

Agent může splnit formulář a zároveň promeškát lepší vyjednávací pozici

Benchmark staví problém jinak než klasické testy schopností. Neptá se jen, zda model umí plánovat, používat nástroje nebo dokončit workflow. Ptá se, zda se chová jako spolehlivý zástupce člověka.

To je v reálném nasazení kritický rozdíl. Nestačí, že agent splní formulář nebo napíše odpověď. Pokud přitom přehlédne lepší vyjednávací pozici, nevýhodnou podmínku nebo konflikt zájmů, formálně uspěl a prakticky selhal.

Pro produktové týmy to mění, co musí evals měřit

Enterprise adopce agentů se prodává přes produktivitu: méně klikání, rychlejší operace, víc automatizace. SocialReasoning-Bench míří na méně pohodlnou otázku: komu přesně ta automatizace slouží.

Pro produktové týmy to znamená, že evals nemohou měřit jen completion rate. Budou muset zahrnout kvalitu rozhodnutí, schopnost odmítnout špatnou instrukci a schopnost rozpoznat, kdy je lepší eskalovat věc člověku. Tohle je zároveň otázka pro procurement: pokud firmy začnou vyžadovat agent evals pro uživatelský zájem, promění to podobu bezpečnostních testů.

Benchmark měří nástroj, ne řešení: governance musí přijít odjinud

Benchmark sám o sobě nevyřeší governance. Je to měřicí nástroj. Jeho hodnota závisí na realističnosti scénářů a na tom, jestli pokrývá konflikty z práva, nákupu, HR nebo zákaznické podpory.

Přesto je směr správný. Agentic AI potřebuje testy, které neoslavují pohyb kurzoru po obrazovce, ale měří, zda automatizace skutečně pomáhá člověku, který práci delegoval.

Signálem bude, jestli podobné benchmarky zamíří do model cards a procurement požadavků

Důležité bude, jestli se benchmarky jako SocialReasoning-Bench dostanou do model cards a standardních požadavků při nákupu AI. Pokud firmy začnou vyžadovat agent evals pro uživatelský zájem jako součást výběrového řízení, změní to podobu bezpečnostních testů.

Druhý signál bude produktový: jestli nástroje pro agents začnou nabízet audit rozhodnutí, explicitní cíle uživatele a kontrolní body, ne jen historii provedených akcí.

Lilithin verdikt

Agent, který umí klikat, ještě není zástupce uživatele. Skutečný test začíná ve chvíli, kdy má někdo dostat lepší smlouvu, ne jen hezky vyplněný formulář.