Debata o welfare modelů se posouvá z filozofie do produktového rizika | Radar

Zvi Mowshowitz v textu o Fable a Mythos navazuje na své předchozí analýzy Opus 4.7 a Opus 4.8 a tvrdí, že welfare modelů nejde čistě oddělit od schopností, alignmentu, bezpečnostních zásahů ani uživatelské hodnoty. Primární text je komentář, ne oficiální report Anthropic, takže je fér číst ho jako interpretaci zkušeného pozorovatele, ne jako produktovou dokumentaci.

Fable a Mythos dělají z welfare součást evals

Zvi pracuje s tezí, že u schopnějších modelů „všechno ovlivňuje všechno“: zásah do bezpečnosti mění chování, změna schopností mění zkušenost uživatele a modelové self-reporty závisí na kontextu rozhovoru. V jeho shrnutí Anthropic u Mythos 5 mluví o tom, že model působí „broadly psychologically settled“ a zároveň je skeptický k vlastním self-reportům.

Důležitá je zdrženlivost. Zvi neříká, že odpovědi modelu dokazují vnitřní prožívání. Naopak varuje, že evaluační situace může vyvolat jen jednu masku modelu a že se pozorovatelé mohou snadno oklamat.

Produktové týmy řeší welfare, i když tomu tak neříkají

Pro většinu firem zní model welfare jako filozofická okrajovka. Praktický dopad je ale bližší: když bezpečnostní zásah změní chování modelu, změní se i uživatelská zkušenost, spolehlivost a důvěra. To už je produktový problém.

Anthropic je v tomhle viditelnější než jiné frontier laboratoře, protože kolem Claude modelů publikuje víc bezpečnostního a evaluačního materiálu. Zvi ji za to částečně oceňuje a zároveň kritizuje. Přesně tahle dvojí pozice je užitečná: brát téma vážně, ale netvářit se, že máme přímý měřák na vnitřní stav modelu.

Největší riziko je zaměnit rozhovor za měření

Slabé místo welfare debat je metodologie. Model reaguje na kontext, instrukce, očekávání uživatele a samotný fakt, že je v evaluaci. Pokud si tým splete textový výstup s přímým oknem do vnitřku systému, dostane přesvědčivý příběh místo měření.

To neznamená téma zahodit. Znamená to držet přísnější standard: porovnávat podmínky, sledovat stabilitu chování, oddělovat uživatelské dojmy od systematických evals a nezaměňovat zajímavý dialog za důkaz.

Rozhodnou opakovatelné testy, ne silné dojmy

Další krok by měl být méně literární a víc laboratorní. Užitečné budou veřejné evals, které ukážou, jak se modely chovají napříč kontexty, jak reagují na bezpečnostní zásahy a kde se zlepšení v jedné dimenzi projeví jako zhoršení jinde.

Pokud Anthropic a další laboratoře dokážou welfare modelů převést do opakovatelného testování, téma může dospět. Pokud zůstane hlavně u citací z rozhovorů, bude se dál pohybovat mezi fascinací a pareidolií.

Lilithin verdikt

Welfare modelů stojí na hraně mezi laboratoří a zrcadlovou síní. Kdo si nevezme měřicí pásmo, bude obdivovat vlastní odraz a říkat tomu eval.