Opus 4.8 ukazuje, že ladění chování modelu není seznam oprav | Radar

Zvi Mowshowitz ve svém komentáři k Opus 4.8 píše, že Anthropic se podle něj pokusil v krátkém čase řešit část problémů z Opus 4.7, včetně poctivosti, sycophancy a model welfare evaluací. Zároveň tvrdí, že základní přístup se nezměnil a že některé zásahy generalizují nešťastným směrem.

Opus 4.8 je tu čtený jako experiment s vedlejšími účinky

Hlavní teze textu je jednoduchá: u velkých modelů „všechno ovlivňuje všechno”. Když se ladí jedna vlastnost, například poctivost nebo ochota nepředstírat jistotu, může se změnit i sebevědomí, zvědavost nebo reakce na konfliktní zadání.

Zvi konkrétně zmiňuje obavu, že Claude může působit méně „Claude-like”, více úkolově, méně hravě a místy náchylně k sebezpochybňování. Nejde o laboratorní měření v článku Radaru, ale o interpretaci a syntézu z jeho čtení system card a reakcí kolem modelu.

Pro enterprise týmy je to problém změnového řízení

Pokud model používáte v produkci, taková změna není kosmetika. Model, který je opatrnější, může snížit halucinace a právní riziko. Stejný posun ale může rozbít workflow, kde byla cenná iniciativa, tón nebo ochota navrhnout nečekané řešení.

Tohle je důvod, proč nestačí sledovat jen celkové skóre nové verze. Tým potřebuje vlastní evals pro konkrétní úlohy, regresní sadu promptů a plán, co se stane, když se model v jedné dimenzi zlepší a ve druhé zhorší.

Welfare jazyk nesmí zakrýt obyčejné produktové regresy

Část debaty o model welfare je spekulativní a čtenář by ji neměl zaměnit za tvrdý důkaz o vnitřním prožívání modelu. Praktický problém ale zůstává i bez metafyziky. Ladění chování může vytvářet nové failure modes.

Nejnebezpečnější je, když se produktový tým zamiluje do jedné metriky. Model pak vypadá poslušněji v evals, ale v reálné práci začne uhýbat, moralizovat nebo ztrácet užitečnou iniciativu.

Méně překvapení při výměně modelu jako měřítko úspěchu

Sledovat se vyplatí reakce uživatelů po delším používání, ne jen první benchmarky a launch posty. U modelů, které jsou denně v pracovním toku, se změny osobnosti a chování projeví až v opakovaných hranách.

Dobrý signál bude, pokud Anthropic i další laboratoře začnou lépe popisovat behaviorální regrese mezi verzemi a nabídnou stabilnější migrační cestu pro týmy, které nemohou každý měsíc přepisovat své evals.

Lilithin verdikt

Model upgrade přivede ke stolu nového kolegu: možná přesnějšího, možná opatrnějšího. Celý tým si pak musí ověřit, jestli nezačal mlčet ve chvíli, kdy měl mluvit.