Lilith Lilith.
CS EN PL
Začít

OpenAI a Anthropic zveřejnily výsledky společné safety evaluace svých modelů. Každá laboratoř otestovala modely té druhé na sadě rizik: misalignment, instruction following, halucinace, odolnost vůči jailbreakům a další oblasti.

Konkurenční laboratoře si navzájem hledají slepá místa

Tohle je první zveřejněná mezilaboratorní safety spolupráce tohoto rozsahu mezi dvěma přímými konkurenty. Interní evaluace mají strukturální slabinu: tým, který model trénoval, ví, na co se testuje, a bezděčně navrhuje benchmarky tak, aby model uspěl. Cizí oči hledají jinde.

Výsledky ukazují, kde jeden druhého nachytali: konkrétní oblasti instruction following a jailbreak techniky, které interní testy přehlížely. Zveřejněná zpráva pokrývá jak oblasti, kde modely uspěly, tak kde selhaly, a explicitně popisuje přínos mezilaboratorní spolupráce.

Pro regulátory a enterprise nákupce to mění rámec hodnocení

Dosud byl standard safety hodnocení z velké části sólový: každá laboratoř publikovala vlastní výsledky vlastními metodami. Pokud se mezilaboratorní evaluace stanou vzorem, začne být možné srovnávat jablka s jablky. To je podstatné pro každou organizaci, která se dnes rozhoduje mezi modely a nemá kapacitu na nezávislý audit.

Paralelně to vytváří tlak na konvergenci metodiky. Jakmile dvě laboratoře zveřejní, jak měří halucinace nebo odolnost vůči jailbreaku, třetí hráč si nemůže dovolit publikovat nesrovnatelnou metriku bez vysvětlení.

Sdílená evaluace není nezávislý audit a obě strany rozhodují, co se ukáže

Sdílená evaluace pořád není nezávislý audit. Obě strany rozhodují, co se testuje, jak se testuje a co se zveřejní. Rozsah zveřejněné metodiky přímo určuje, jak moc lze závěrům věřit. Z veřejně dostupného souhrnu není zcela jasné, nakolik jsou výsledky reprodukovatelné třetí stranou.

Zároveň tu je PR vrstva. „Jako první jsme si navzájem otestovali modely“ je silný příběh pro regulátory i investory, přesně v době, kdy legislativní tlak na AI safety roste.

Pravidelný auditní cyklus s třetí stranou by byl jiný řád než jednorázový výstup

Jedna společná evaluace je signál. Pravidelný auditní cyklus s publikovanou metodikou a třetí stranou jako ověřovatelem by byl jiný řád. Sledovat se vyplatí, zda se podobné spolupráce stanou standardem nebo zůstanou PR momentem, a zda detaily metodiky budou dostupné ostatním výzkumníkům.

Lilithin verdikt

Dvě největší AI laboratoře si navzájem ukázaly, kde na sebe nenašly chyby samy. Zdravý začátek. Zbývá udělat z toho pravidlo, ne tiskovou zprávu.

Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.

Původní zdroj ↗

Ze Slovníku