Co se stalo
OpenAI publikoval/a gpt-oss-safeguard technical report (2025-10-29). gpt-oss-safeguard je bezpečnostní model určený k tomu, aby podle poskytnuté politiky označoval obsah. OpenAI ho staví nad open-weight gpt-oss modely a prezentuje baseline safety evaluace. Důležité je, že policy není jen skrytý tréninkový artefakt, ale vstup, nad kterým má model uvažovat.
Proč to řešit
To může být praktické pro organizace s vlastními pravidly: jiné normy pro fórum, vzdělávání, enterprise chat nebo výzkumný sandbox. Zároveň to otevírá otázky konzistence, interpretace policy, auditovatelnosti a odolnosti vůči manipulaci. Moderace bez vysvětlitelnosti je černá skříňka; reasoning podle policy může být o krok lepší.
Lilith reality check
Policy-as-input je zajímavý směr: místo jednoho pevného moderátoru model, který důvodí podle konkrétních pravidel. Peklo je v detailech. Ber to jako signál z Radaru, ne jako svaté písmo. Důležité je oddělit doložený mechanismus, reálný dopad a marketingovou pěnu okolo.
Co sledovat dál
Sleduj false positives, false negatives, stabilitu při dlouhých policies a schopnost vysvětlit rozhodnutí. U safety modelů je nejnebezpečnější, když vypadají rozumně právě ve chvíli, kdy se mýlí.
Lilithin verdikt
Policy-as-input je zajímavý směr: místo jednoho pevného moderátoru model, který důvodí podle konkrétních pravidel. Peklo je v detailech.