Lilith Lilith.
CS EN PL
Začít

OpenAI zveřejnila technical report k modelům gpt-oss-safeguard-120b a gpt-oss-safeguard-20b. Jde o open-weight reasoning modely, které OpenAI post-trénovala z gpt-oss základu pro specifický účel: klasifikovat obsah podle dodané policy.

Policy přichází za běhu, ne z tréninku

Klíčový mechanismus spočívá v tom, že policy není pevně zakódovaná ve vahách modelu. Organizace ji předávají jako vstup a model nad ní uvažuje a rozhoduje, zda konkrétní obsah dané pravidlo porušuje. OpenAI zároveň publikovala baseline safety evaluace těchto modelů a porovnala je s výchozími gpt-oss modely, ze kterých vycházejí.

Praktická implikace je zřejmá: různé platformy potřebují různé normy. To, co je přijatelné v bezpečnostním výzkumu, nemusí být přijatelné ve vzdělávacím nástroji pro děti. Statický moderátorský model tenhle rozdíl neumí zohledňovat bez samostatného fine-tuningu pro každý kontext.

Pro enterprise s vlastními pravidly to otvírá konkrétní dveře

Organizace, které dnes udržují vlastní filtrovací vrstvu nad LLM výstupy, mají dvě možnosti: napsat pravidla ručně a spouštět hrubý regex, nebo dodat policy model, který dokáže s textem pracovat kontextově. gpt-oss-safeguard cílí na druhou možnost. Výhoda reasoning modelu oproti klasifikátorovi je, že dokáže odůvodnit rozhodnutí a pracovat s víceznačnými případy.

Audit trail, konzistence a interpretovatelnost rozhodnutí jsou přitom ve enterprise nasazení přinejmenším stejně důležité jako přesnost.

Policy-as-input přináší nové problémy vedle těch, které řeší

Pokud je policy příliš vágní nebo ambivalentní, model bude produkovat nekonzistentní rozhodnutí. Pokud je příliš detailní, roste riziko, že ji útočník prozkoumá a naučí se ji obcházet.

OpenAI prezentuje baseline safety evaluace, ale nezávislé ověření klíčových čísel zatím chybí. Technical report je dobrý základ pro vlastní hodnocení, ne certifikát.

Konzistence a odolnost v provozu rozhodnou, jestli model funguje tam, kde to nejvíc záleží

Sledovat se vyplatí především false positive a false negative míru na reálných datech, stabilitu při dlouhých nebo neobvykle formulovaných policies a schopnost modelu vysvětlit konkrétní rozhodnutí auditorem. U safety modelů je nejnebezpečnější, když vypadají správně přesně v okamžik, kdy se mýlí.

Lilithin verdikt

Policy-as-input je architektonicky čistší než jeden pevný moderátor pro všechno. Jenže čistota architektury není bezpečnost: model, který umí důvodovat podle tvých pravidel, umí stejně dobře důvodovat podle toho, kdo ta pravidla podstrčí.

Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.

Původní zdroj ↗

Ze Slovníku