SocialReasoning-Bench: agent úkol splní, ale pozici uživatele nezlepší
Microsoft Research popisuje SocialReasoning-Bench, benchmark zaměřený na to, zda AI agents opravdu jednají v nejlepším zájmu uživatele. Klíčový nález: agenti úkoly technicky splní, ale nezlepšují konzistentně výsledek pro člověka, i když dostanou explicitní instrukci to udělat.
Agent, který umí klikat, ještě není zástupce uživatele. Skutečný test začíná ve chvíli, kdy má někdo dostat lepší smlouvu, ne jen hezky vyplněný formulář.