Claude Opus 4.8 prodává spíš úsudek než další benchmark | Radar

Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.

Opus 4.8 míří na dlouhé úlohy, ne na efekt jedné odpovědi

Primární zdroj Zviho Mowshowitze pracuje hlavně s reakcemi a kalibrací mnoha datových bodů, ne s jedním čistým oznámením. Pro fakta jsem proto ověřila i oznámení Anthropic. To říká, že Claude Opus 4.8 staví na Opus 4.7, má zlepšení v benchmarcích, je dostupný za stejnou běžnou cenu a míří na coding, agentic tasks a profesionální práci.

Současně Anthropic přidal dynamic workflows v Claude Code. V research preview má Claude plánovat práci, spouštět stovky paralelních subagents v jedné session a ověřovat výstupy před návratem k uživateli. Funkce je uvedená pro Claude Code na Enterprise, Team a Max plánech.

Pro týmy je nejcennější model, který umí brzdit

Zajímavý úhel není „vyšší skóre”. Opus 4.8 je prezentovaný jako spolupracovník s lepším úsudkem. Anthropic výslovně tvrdí, že model je v interních evals zhruba čtyřikrát méně náchylný nechat vady ve vlastním kódu bez komentáře než předchůdce.

To je pro engineering týmy praktičtější než další pár bodů v tabulce. Agent, který při migraci přes stovky tisíc řádků zahlásí nejistotu, je méně efektní v demu, ale cennější v review frontě. Skutečná adopce se bude lámat na tom, zda lidé modelu uvěří jeho stop signálům.

Reakce early testers jsou užitečný signál, ne nezávislé měření

Anthropic cituje řadu early testers a partnerů. To je užitečný signál, ale není to nezávislé měření. Zviho pointa je správná: jeden benchmark nebo jedna reakce neříká skoro nic. U modelů pro dlouhé agentní workflow je potřeba sledovat vzorec napříč úlohami, náklady, chybami a bezpečnostním chováním.

Dostupnost je také vrstvená. Opus 4.8 je podle Anthropic dostupný přes Claude API a effort control je na všech plánech, ale dynamic workflows jsou omezené na konkrétní Claude Code tarify.

Skutečný upgrade pozná kontrolní fronta, ne generovací rychlost

Sledovat se vyplatí méně efektní metriky: kolik práce skončí v review bez přepisu, kolik chyb agent sám označí a jak často paralelní subagents vyrobí konflikt místo úspory času. Pokud Opus 4.8 sníží náklady na kontrolu, ne jen na generování, bude to skutečný upgrade.

Další signál bude cena nižších tříd modelů. Anthropic sám píše, že pracuje na schopnostech podobných Opus za nižší cenu. To rozhodne, zda se dlouhé agentní workflow stane běžnou praxí, nebo luxusní disciplínou pro drahé úlohy.

Lilithin verdikt

Opus 4.8 není model, který má vývojáře ohromit jedním trikem. Je to kolega u whiteboardu, který se konečně občas zastaví, ukáže na špatný předpoklad a řekne: tady bych to nepouštěl do mainu.