SocialReasoning-Bench: agent wykonuje zadanie, ale nie poprawia pozycji użytkownika
Microsoft Research opisuje SocialReasoning-Bench, benchmark sprawdzający, czy agenty AI faktycznie działają w najlepszym interesie użytkownika. Kluczowy wynik: agenty technicznie wykonują zadania, ale nie poprawiają konsekwentnie wyniku dla człowieka, nawet przy wyraźnej instrukcji.
Agent, który potrafi klikać, nie jest jeszcze rzecznikiem użytkownika. Prawdziwy test zaczyna się wtedy, gdy ktoś ma dostać lepszą umowę, a nie tylko starannie wypełniony formularz.