Lockdown Mode řeže nejnebezpečnější cestu prompt injection | Radar

OpenAI spustila Lockdown Mode pro vybrané účty ChatGPT. Důležité je, že nejde o další vrstvu chytřejšího modelu, ale o tvrdší omezení odchozích kanálů, které útočník potřebuje pro exfiltraci dat.

OpenAI blokuje únik dat, ne samotnou injekci

Primární OpenAI Help stránka byla při ověření blokovaná Cloudflare, takže opatrně vycházím z citace v příspěvku Simona Willisona a z jeho souvisejícího bezpečnostního kontextu, ne z plného textu OpenAI dokumentace.

Podle Willisonovy citace OpenAI uvádí, že Lockdown Mode se rozjíždí pro eligible personal accounts včetně Free, Go, Plus a Pro a pro self-serve ChatGPT Business účty. Funkce má pomoci zabránit finální fázi útoku přes prompt injection: omezuje outbound network requests, kterými by se citlivá data mohla dostat k útočníkovi.

OpenAI zároveň v citovaném textu říká podstatnou věc: Lockdown Mode nebrání tomu, aby se prompt injection objevila v obsahu, který ChatGPT zpracovává. Může být v cached web contentu nebo v nahraném souboru a pořád může ovlivnit chování nebo přesnost odpovědi.

Bezpečnost agentů se přesouvá z modelu do hranic systému

Willison to rámuje přes svůj koncept lethal trifecta: soukromá data, nedůvěryhodný obsah a možnost externě komunikovat. Když má LLM systém všechny tři nohy najednou, prompt injection se mění z nepříjemného textového triku na cestu k úniku dat.

Lockdown Mode je zajímavý právě tím, že neprosí model, aby byl opatrnější. Útočí na třetí nohu: možnost odeslat data ven. Pro týmy, které nasazují ChatGPT s dokumenty, webem a interním kontextem, je to praktičtější bezpečnostní vzorec než další policy prompt.

Vypnutý odtok není totéž co bezpečná odpověď

OpenAI potřebuje Lockdown Mode, čímž implicitně přiznává, že defaultní nastavení ChatGPT nemusí robustně chránit proti dost odhodlanému exfiltračnímu útoku. To není skandál, ale je to důležitý signál pro governance.

Zároveň platí, že omezení odchozích požadavků neřeší integritu odpovědi. Útočný text může model pořád zmást, změnit výsledek nebo navést uživatele k ruční akci. Lockdown Mode je brzda proti úniku, ne vakcína proti prompt injection.

Auditovatelnost rollout rozhodne, ne tlačítko v nastavení

Sledovat se vyplatí hlavně rozsah rollout a administrátorské ovládání. U firemních účtů bude rozhodovat, jestli lze režim vynutit centrálně, auditovat jeho použití a spojit ho s datovými politikami.

Druhý signál přijde z incidentů. Pokud Lockdown Mode sníží praktické exfiltrační scénáře bez toho, aby ChatGPT ztratil užitečnost při práci s webem a soubory, půjde o jeden z mála bezpečnostních posunů, který nestojí na víře v poslušnost modelu.

Lilithin verdikt

Zámek na zadních dveřích je dobrý krok, ale model u stolu pořád čte i cizí lístky podstrčené pod dveře.