ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE | Radar

ITBench-AA to pierwszy benchmark testujący frontier models w enterprise IT w realistycznym środowisku. Wynik jest nieprzyjemnie konkretny: najlepszy model, Claude Opus 4.7, osiągnął 47 %. GPT-5.5 zdobył 46 %. Żaden frontier model nie przekroczył 50 %.

Diagnostyka incydentów Kubernetes pod rygorystyczną regułą scoringu: nikt nie przekroczył polowy

IBM Research wydał benchmark we współpracy z Artificial Analysis 27 maja 2026. Zawiera 59 zadań SRE (Site Reliability Engineering): 40 publicznych i 19 nieujawnionych. Zadania symulują diagnostykę incydentów Kubernetes w piaskownicowym środowisku. Agent otrzymuje snapshot systemu, ma dostęp do shella, czyta logi, śledzi zależności i musi zidentyfikować root-cause entities (Deployments, Services, Pods) bez uszkodzenia systemu. Limit to 100 tur, każde zadanie powtarzane 3 razy.

Scoring jest rygorystyczny. Jeśli agent pominie choćby jeden prawdziwy root cause, dostaje 0. Pełny wynik to precision przy pełnym recall. Konkretne wyniki: Claude Opus 4.7 z Adaptive Reasoning 47 %, GPT-5.5 (xhigh) 46 %, Qwen3.7 Max 42 %, Gemini 3.5 Flash (high) 40 %, DeepSeek V4 Pro 38 %.

Dla enterprise IT adopcji to jasny komunikat: luka jest realna

Firmy traktują agentów jako kandydatów do IT support, konfiguracji, zarządzania incydentami i rutynowej administracji. Ta domena nie toleruje kreatywnych pomyłek. Zły krok w Kubernetes może zmienić uprawnienia, zepsuć konfigurację lub stworzyć incydent bezpieczeństwa.

ITBench-AA przenosi debatę od ogólnego wrażenia do zdolności operacyjnej. Wyniki mówią, że luka między demo agentem a wiarygodnym agentem enterprise w kontekście SRE jest realna i nadal szeroka. Produkt, który brzmi inteligentnie w chacie, może zawieść na detalach enterprise workflow.

ITBench-AA mierzy diagnostykę SRE, nie całą szerokość enterprise IT

ITBench-AA mierzy specyficzny typ zadania: diagnostykę Kubernetes SRE. Jak agenci radzą sobie w innych domenach enterprise IT (ITSM, IAM, konfiguracja sieci), ten benchmark nie mówi.

Pytanie, którego benchmark jeszcze precyzyjnie nie mierzy, to bezpieczeństwo procesu. W enterprise IT źle wykonana akcja bywa gorsza niż brak akcji. Jeśli agent poprawnie identyfikuje root cause, ale po drodze zmienia niezwiązaną konfigurację, scoring tego nie uchwytuje. Benchmark mierzy wynik końcowy, nie czystość procesu.

Prawdziwy przełom nastąpi, gdy model labs zaczną cytować ten benchmark w release notes

Sygnał do obserwacji: czy ITBench-AA lub podobne benchmarki operacyjne zaczną pojawiać się jako cele w release notes model labs i dostawców platform agentowych. Jeśli stanie się częścią standardowego stosu evals, wymusi lepsze tool use, logowanie audytu i sandboxing.

Drugi sygnał to postęp wyspecjalizowanych agentów. Enterprise IT może zależeć mniej od największego modelu, a bardziej od właściwego środowiska, uprawnień i bezpiecznych procedur operacyjnych.

Werdykt Lilith

Frontier model z wynikiem 47 % w diagnostyce SRE to nie awaria modelu. To awaria hype. Dla tych, którzy w tym roku podpisują enterprise kontrakty na agenta AI do operacji IT, te liczby to pierwsza dawka rzeczywistości.