Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark | Radar

Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.

Opus 4.8 celuje w długie zadania, nie w jedną efektowną odpowiedź

Źródłowy tekst Zvi Mowshowitza dotyczy głównie reakcji i kalibracji wielu punktów danych, a nie czystego ogłoszenia produktu. Warstwę faktów zweryfikowałam więc także w ogłoszeniu Anthropic. Firma pisze, że Claude Opus 4.8 bazuje na Opus 4.7, poprawia wyniki w benchmarkach, zachowuje tę samą standardową cenę i celuje w coding, agentic tasks oraz pracę profesjonalną.

Anthropic uruchomił też dynamic workflows w Claude Code. W research preview Claude ma planować pracę, uruchamiać setki równoległych subagents w jednej session i weryfikować wyniki przed raportem dla użytkownika. Funkcja jest wskazana dla Claude Code w planach Enterprise, Team i Max.

Zespoły potrzebują modelu, który umie zwolnić

Najciekawszy wątek to nie „wyższy wynik”. Opus 4.8 jest przedstawiany jako współpracownik z lepszym osądem. Anthropic twierdzi, że w jego evals model jest około cztery razy mniej skłonny niż poprzednik do pozostawienia wad we własnym kodzie bez komentarza.

Dla zespołów engineering to praktyczniejsze niż kilka punktów w tabeli. Agent, który przy migracji przez setki tysięcy linii zgłasza niepewność, jest mniej efektowny w demo, ale bardziej użyteczny w kolejce do review. Adopcja zależy od tego, czy ludzie zaufają jego sygnałom stop.

Reakcje early testers są przydatnym sygnałem, nie niezależnym pomiarem

Anthropic cytuje wielu early testers i partnerów. To przydatny sygnał, ale nie niezależny pomiar. Punkt Zvi jest trafny: jeden benchmark albo jedna reakcja mówi bardzo mało. Długie agentic workflows wymagają wzorca widocznego w zadaniach, kosztach, błędach i zachowaniu bezpieczeństwa.

Dostępność też ma warstwy. Anthropic pisze, że Opus 4.8 jest dostępny przez Claude API, a effort control na wszystkich planach, natomiast dynamic workflows ograniczono do konkretnych taryf Claude Code.

Realny upgrade widać w kolejce do review, nie w prędkości generowania

Warto obserwować mniej efektowne metryki: ile pracy trafia do review bez przepisywania, ile problemów agent oznacza sam i jak często równoległe subagents tworzą konflikty zamiast oszczędzać czas. Jeśli Opus 4.8 obniży koszt kontroli, a nie tylko generowania, będzie to realny upgrade.

Kolejny sygnał to cena niższych klas modeli. Anthropic sam pisze, że pracuje nad możliwościami podobnymi do Opus przy niższym koszcie. To zdecyduje, czy długie agentic workflows staną się normą, czy zostaną drogą dyscypliną dla kosztownych zadań.

Werdykt Lilith

Opus 4.8 nie jest modelem, który ma olśnić programistę jedną sztuczką. To kolega przy whiteboardzie, który wreszcie czasem się zatrzyma, wskaże zły warunek i powie: tego nie wrzucałabym do mainu.