Lilith Lilith.
CS EN PL
Začít

OpenAI spustila bug bounty zaměřený na biologická bezpečnostní rizika u GPT-5.5, s odměnami do 25 000 dolarů. Cíl: najít univerzální jailbreaky, ne jen obejít specifický filtr.

Bio bug bounty hledá systematické průlomy, ne jednotlivé triky

Program je zaměřen na tzv. univerzální jailbreaky, tedy postupy, které systematicky obejdou bezpečnostní zábrany napříč různými vstupy, ne jen jeden konkrétní případ. Biologická bezpečnost je přitom jedna z nejcitlivějších kategorií: pokud model umí poskytovat odborné biologické postupy nebo pomoci obejít zábrany ve specifické oblasti, klasické safety evaly to nemusí zachytit. Bug bounty přesouvá hledání chyb mimo interní tým.

Pro výzkumné a bezpečnostní komunity je to legitimizace adversariálního testování

Formální bounty program říká: OpenAI uznává, že interní red-teaming nestačí a že externím nálezům je ochotna platit a naslouchat. Odměna 25 000 dolarů za kritický nález není symbolická. Zároveň program definuje scope a pravidla disclosure, což je pro výzkumníky důležité: vědí, co smí zveřejnit a co ne.

Program má správný směr, ale jeho dopad závisí na tom, co OpenAI s nálezy udělá

Bounty program je signál správným směrem, ale má limity. Kvalita závisí na tom, co je ve scope, jak OpenAI nakládá s nálezy po uzávěrce a jestli se do dalšího cyklu zahrnou opravené třídy útoků. Pokud program zachytí závažné nálezy a OpenAI je nezveřejní ani neaktualizuje veřejný safety report, je to jen PR cvičení. Zdrojová stránka byla při ověření blokovaná (403).

Agregované výsledky a kopírování dalšími laboratořemi ukáží skutečný dopad

Sleduj, jestli OpenAI zveřejní výsledky v agregované formě, jaké třídy útoků byly nalezeny a zda podobné programy na bio safety spustí Anthropic, Google DeepMind nebo Meta. Bio bezpečnost potřebuje sdílená data, ne silové pole jedné laboratoře.

Lilithin verdikt

Bio safety bounty je dobrý krok. Ale dopad se měří tím, co OpenAI s nálezy udělá po uzávěrce, ne tím, kolik zaplatí za objev.

Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.

Původní zdroj ↗

Ze Slovníku