Frontier model governance — kdo hlídá model před releasem | Slovník

Zlaté pravidlo: Hodnoť laby podle toho, co publikují a dodržují, ne podle toho, co slibují: scaling policy, evaly nebezpečných schopností a hlášení incidentů jsou měřítko. Tiskovky ne.

Co se vlastně hlídá

Frontier model governance je sada pravidel, testů a procesů kolem nejsilnějších modelů před tím, než se dostanou k uživatelům. Neřeší jen „je model bezpečný“. Řeší, kdo to smí posoudit, jaké riziko se měří, kdo vidí výsledky a kdo může říct: tenhle release ještě ne.

Do téhle kategorie patří system cards, externí safety evaly, interní red-teaming, model release policies, státní nebo regulatorní přístup před releasem a dohody mezi laboratořemi. Zvenku to často vypadá jako papírování. Ve skutečnosti je to pokus vytvořit brzdy pro systémy, jejichž schopnosti rostou rychleji než instituce kolem nich.

System card není licence

System card je užitečný dokument, ale není povolení k provozu. Laboratoř v něm popisuje schopnosti, limity, testy a mitigace. Dobrý system card je konkrétní hlavně v tom, co model neumí, kde selhal a jaké testy byly slabé.

Problém je asymetrie. Laboratoř ví víc než veřejnost, vybírá formát zveřejnění a často sama rozhoduje, co je dostatečně dobré. Bez nezávislého přístupu k testům, metodice a incidentům je system card spíš účtenka než kontrola.

Stát, laboratoře a dobrovolné testování

Vládní nebo předrelease testování frontier modelů může vytvořit důležitý tlakový bod. Neznamená ale automaticky model licensing. Rozdíl mezi dobrovolným sdílením, regulatorní povinností a skutečnou možností zablokovat release je zásadní.

Dobrovolný režim funguje, dokud mají laboratoře motivaci spolupracovat a dokud testování nezdržuje byznys víc, než jsou ochotné snést. Tvrdší režim zase naráží na rychlost vývoje, mezinárodní konkurenci a otázku, kdo má kompetenci hodnotit modely, které často nerozumí ani jejich tvůrci dokonale.

Co má dobrá governance obsahovat

Minimum je jasná klasifikace rizik, nezávislé testování, opakovatelná metodika, auditní stopa, incident reporting a pravidla pro změny modelu po releasu. Důležité je i oddělení schopností: model pro veřejný chat, model s nástroji, model s přístupem k datům a model pro autonomní akce nejsou stejné riziko.

Dobrá governance nemá jen chránit před katastrofickým scénářem. Má zabránit i obyčejnějším selháním: skrytému posunu chování, slabým evalům, marketingovým tvrzením bez opory a systému, kde laboratoř kontroluje vlastní domácí úkol.

Co sledovat

Sleduj, kdo má přístup k modelu před releasem, jestli testy pokrývají reálné tool-use a agentní scénáře, jestli se zveřejňují negativní výsledky a jestli existuje pravomoc release odložit. Frontier governance není tisková zpráva o odpovědnosti. Je to otázka, kdo má ruku na brzdě, když model už drží volant.

Kam dál

Anthropic: Responsible Scaling Policy — jak vypadá závazek svázaný s měřitelnými schopnostmi modelu.
EU AI Act — průvodce evropskou regulací — co reálně dopadá na vývojáře a firmy.
METR — nezávislé evaly nebezpečných schopností frontier modelů.