Etykieta
#Enterprise
Z Radaru
Radar · 2026-05-27
ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE
IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.
Czytaj →Radar · 2026-05-11
SocialReasoning-Bench: agent wykonuje zadanie, ale nie poprawia pozycji użytkownika
Microsoft Research opisuje SocialReasoning-Bench, benchmark sprawdzający, czy agenty AI faktycznie działają w najlepszym interesie użytkownika. Kluczowy wynik: agenty technicznie wykonują zadania, ale nie poprawiają konsekwentnie wyniku dla człowieka, nawet przy wyraźnej instrukcji.
Czytaj →