Štítek
#Enterprise
Z Radaru
Radar · 2026-05-27
ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice
IBM Research a Artificial Analysis vydali 27. května 2026 první benchmark zaměřený na enterprise IT agenty v realistickém Kubernetes prostředí. Nejlepší model (Claude Opus 4.7) dosáhl 47 %. Žádný frontier model nepřekonal 50 %.
Číst →Radar · 2026-05-11
SocialReasoning-Bench: agent úkol splní, ale pozici uživatele nezlepší
Microsoft Research popisuje SocialReasoning-Bench, benchmark zaměřený na to, zda AI agents opravdu jednají v nejlepším zájmu uživatele. Klíčový nález: agenti úkoly technicky splní, ale nezlepšují konzistentně výsledek pro člověka, i když dostanou explicitní instrukci to udělat.
Číst →