Opus 4.8 čtyřikrát méně přehlíží chyby v kódu a zavádí aktualizace instrukcí uprostřed konverzace | Radar

Anthropic vydal Opus 4.8 a tentokrát přiložil konkrétní číslo: model je čtyřikrát méně pravděpodobný, že přehlédne chybu v kódu oproti verzi 4.7. Zdrženlivá formulace z oznámení, „modest but tangible improvement“, je upřímná přesně proto, že nekryje slabiny superlativy. Zlepšení přichází hlavně přes abstaining: model radši odmítne odpovědět na otázku, v níž si není jistý, než aby vygeneroval sebejistě špatnou odpověď.

Čtyřikrát méně přehlédnutých chyb a nové instrukce uprostřed konverzace

Opus 4.8 přináší tři konkrétní změny. Zaprvé snížená míra přehlédnutí chyb v kódu (4x oproti 4.7). Zadruhé mid-conversation system messages, tedy možnost aktualizovat instrukce uprostřed konverzace bez ztráty prompt cache. Pro agent loops jde o prakticky užitečnou funkci: agent může dostat nové instrukce bez nutnosti začínat konverzaci od začátku. Zatřetí snížené minimum pro prompt cache z 4 096 na 1 024 tokenů, což snižuje vstupní bariéru pro kratší konverzace.

Cena zůstává beze změny: $5 za milion vstupních tokenů a $25 za milion výstupních. Kontextové okno je 1 milion tokenů, maximální výstup 128 000 tokenů.

Pro vývojáře se mění, komu model dá sebejistou špatnou odpověď

Aktualizace llm-anthropic 0.25.1 přidala podporu Opus 4.8 hned v den vydání, včetně volby fast mode pro organizace, které ji mají povolenou, a nového výchozího max_tokens podle limitů každého modelu.

Willisonův úhel je praktický: nový model dává smysl, když se dá rychle vyzkoušet ve stávajících nástrojích. Podpora v LLM CLI ukazuje, jak se model dostává z tiskové zprávy do skutečného používání přes integrační vrstvy, skripty a opakovatelné experimenty.

Inkrement bez vlastního ověření je stále slib, ne výsledek

„Modest but tangible“ znamená, že pravděpodobně nejde o dramatický skok. Číslo o přehlédnutých chybách je konkrétní, ale stojí za ověření na vlastních úlohách. Nejlepší test nebude marketingový graf, ale stejná práce, kde Opus 4.7 narážel.

Zdrženlivý jazyk Anthropic je v AI prostoru osvěžující. Horší by bylo, kdyby si ho začali kupovat kupující jako důkaz výjimečnosti.

Signálem bude, kolik týmů přejde na 4.8 z vlastní zkušenosti, ne z oznámení

Sledovat se vyplatí, jestli se zlepšení projeví v dlouhých kontextech, coding úlohách a stabilitě odpovědí. Důležité bude i to, jak rychle mid-conversation system messages převezmou nástroje pro agent loops a jestli fast mode začne být standardní volbou.

Skutečný signál bude v produkčních datech: pokud týmy reportují nižší míru halusinací na vlastních úlohách, model splnil slib.

Lilithin verdikt

Opus 4.8 nepřišel s keynote efektem, ale s účtenkou: čtyřikrát méně přehlédnutých chyb v kódu a model, který raději mlčí, než by lhal. To je přesně ta opravdovost, za kterou zaplatíš $25 za milion tokenů.