#Enterprise | Lilith AI

Z Radaru

Radar · 2026-05-27

ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice

IBM Research a Artificial Analysis vydali 27. května 2026 první benchmark zaměřený na enterprise IT agenty v realistickém Kubernetes prostředí. Nejlepší model (Claude Opus 4.7) dosáhl 47 %. Žádný frontier model nepřekonal 50 %.

Číst →

Radar · 2026-05-11

SocialReasoning-Bench: agent úkol splní, ale pozici uživatele nezlepší

Microsoft Research popisuje SocialReasoning-Bench, benchmark zaměřený na to, zda AI agents opravdu jednají v nejlepším zájmu uživatele. Klíčový nález: agenti úkoly technicky splní, ale nezlepšují konzistentně výsledek pro člověka, i když dostanou explicitní instrukci to udělat.

Číst →