ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice | Radar

ITBench-AA je první benchmark, který testuje frontier modely na enterprise IT úkolech v realistickém prostředí. Výsledek je nepříjemně konkrétní: nejlepší model, Claude Opus 4.7, dosáhl 47 %. GPT-5.5 skóroval 46 %. Žádný frontier model nepřekonal 50 %.

Kubernetes incident diagnostika pod přísným skórovacím pravidlem: nikdo nepřekonal polovinu

Benchmark vydal IBM Research ve spolupráci s Artificial Analysis 27. května 2026. Obsahuje 59 SRE (Site Reliability Engineering) úkolů: 40 veřejných a 19 neveřejných. Úkoly simulují diagnostiku Kubernetes incidentů v sandboxovaném prostředí. Agent dostane snapshot systému, má k dispozici shell, čte logy, sleduje závislosti a musí identifikovat root cause entity (Deployments, Services, Pods) bez poškození systému. K dispozici je 100 turn cap, každý úkol se opakuje 3×.

Scoring je přísný. Pokud agent mine byť jeden skutečný root cause, dostane 0. Plný výsledek je precision při plném recall. Konkrétní výsledky: Claude Opus 4.7 s Adaptive Reasoning 47 %, GPT-5.5 (xhigh) 46 %, Qwen3.7 Max 42 %, Gemini 3.5 Flash (high) 40 %, DeepSeek V4 Pro 38 %.

Pro enterprise IT adopci to znamená jasnou zprávu: mezera je reálná

Firmy chápou agenty jako kandidáty na IT support, konfiguraci, správu incidentů a rutinní administraci. Tato doména netoleruje kreativní omyly. Špatný krok v Kubernetes může změnit oprávnění, rozbít konfiguraci nebo vytvořit bezpečnostní incident.

ITBench-AA přesouvá debatu od obecného dojmu k operační schopnosti. Výsledky říkají, že mezera mezi demo agentem a spolehlivým enterprise agentem v SRE kontextu je reálná a zatím široká. Produkt, který v chatu působí chytře, může v enterprise workflow selhat na detailech.

ITBench-AA měří SRE diagnostiku, ne celou šíři enterprise IT

ITBench-AA měří specifický typ úlohy: Kubernetes SRE diagnostiku. Jak agenti zvládají jiné enterprise IT domény (ITSM, IAM, síťová konfigurace) tento benchmark neříká.

Otázka, kterou benchmark zatím neměří přesně, je bezpečnost procesu. V enterprise IT je horší špatně provedená akce než žádná akce. Pokud agent identifikuje root cause správně, ale cestou změní nesouvisející konfiguraci, skóre to nezachytí. Benchmark měří finální výsledek, ne čistotu procesu.

Reálný průlom nastane, až benchmark začnou citovat model labs ve svých release notes

Signál ke sledování: zda ITBench-AA nebo podobné operační benchmarky začnou model labs a dodavatelé agent platform uvádět jako cíl. Pokud se stane součástí standardního eval stacku, vytvoří tlak na lepší tool use, audit log a sandboxing.

Druhý signál jsou specializovaní agenti. Enterprise IT může být méně o největším modelu a víc o správném prostředí, oprávněních a bezpečných pracovních postupech.

Lilithin verdikt

Frontier model s 47 % v SRE diagnostice není selhání modelu. Je to selhání hype. Lidem, kteří v letošním roce podepisují enterprise smlouvy na AI agent pro IT operace, tato čísla slouží jako první dávka reality.