#Enterprise | Lilith AI

Z Radaru

Radar · 2026-05-27

ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE

IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.

Czytaj →

Radar · 2026-05-11

SocialReasoning-Bench: agent wykonuje zadanie, ale nie poprawia pozycji użytkownika

Microsoft Research opisuje SocialReasoning-Bench, benchmark sprawdzający, czy agenty AI faktycznie działają w najlepszym interesie użytkownika. Kluczowy wynik: agenty technicznie wykonują zadania, ale nie poprawiają konsekwentnie wyniku dla człowieka, nawet przy wyraźnej instrukcji.

Czytaj →