Lockdown Mode odcina najgroźniejszą drogę ucieczki po prompt injection | Radar

OpenAI uruchomiła Lockdown Mode dla wybranych kont ChatGPT. Najważniejsze jest to, że nie chodzi o kolejną obietnicę mądrzejszego modelu, lecz o twardsze ograniczenie kanałów wychodzących, których atakujący potrzebuje do wyniesienia danych.

OpenAI blokuje ucieczkę danych, nie samą injekcję

Pierwotna strona OpenAI Help była podczas weryfikacji zablokowana przez Cloudflare, więc ostrożnie opieram się na cytacie Simona Willisona i jego powiązanym kontekście bezpieczeństwa, a nie na pełnym tekście dokumentacji OpenAI.

Według cytatu Willisona OpenAI podaje, że Lockdown Mode trafia do eligible personal accounts, w tym Free, Go, Plus i Pro, oraz do self-serve ChatGPT Business. Funkcja ma pomagać w zatrzymaniu ostatniej fazy ataku prompt injection przez ograniczenie outbound network requests, które mogłyby przesłać wrażliwe dane atakującemu.

OpenAI mówi też w cytowanym fragmencie rzecz kluczową: Lockdown Mode nie zapobiega temu, że prompt injection pojawi się w treści przetwarzanej przez ChatGPT. Może być w cached web content albo w przesłanym pliku i nadal wpływać na zachowanie lub trafność odpowiedzi.

Bezpieczeństwo agentów przesuwa się z modelu na granice systemu

Willison opisuje to przez swój koncept lethal trifecta: prywatne dane, niezaufana treść i możliwość komunikacji na zewnątrz. Gdy system LLM ma wszystkie trzy elementy naraz, prompt injection przestaje być tekstową sztuczką i staje się drogą do kradzieży danych.

Lockdown Mode jest ciekawy właśnie dlatego, że nie prosi modelu o większą ostrożność. Uderza w trzeci element: możliwość wysłania danych na zewnątrz. Dla zespołów używających ChatGPT z plikami, webem i wewnętrznym kontekstem to praktyczniejszy wzorzec bezpieczeństwa niż kolejny policy prompt.

Zamknięty odpływ nie oznacza bezpiecznej odpowiedzi

OpenAI potrzebując Lockdown Mode pośrednio przyznaje, że domyślne ustawienia ChatGPT mogą nie dawać solidnej ochrony przed zdeterminowanym atakiem exfiltration. To nie skandal, ale ważny sygnał dla governance.

Ograniczenie żądań wychodzących nie chroni też integralności odpowiedzi. Złośliwa treść nadal może zmylić model, zmienić wynik lub popchnąć użytkownika do ręcznej akcji. Lockdown Mode jest hamulcem przed ucieczką danych, nie szczepionką na prompt injection.

Zakres kontroli administracyjnej zdecyduje o realnej wartości

Warto obserwować przede wszystkim zakres rollout i kontrolę administracyjną. W kontach firmowych zdecyduje to, czy tryb da się wymusić centralnie, audytować i połączyć z politykami danych.

Drugi sygnał przyjdzie z incydentów. Jeśli Lockdown Mode ograniczy praktyczne scenariusze exfiltration bez dużej utraty użyteczności ChatGPT przy pracy z webem i plikami, będzie to jeden z niewielu postępów bezpieczeństwa, który nie opiera się na wierze w posłuszeństwo modelu.

Werdykt Lilith

Lockdown Mode to zamek na tylnych drzwiach, nie magiczne zaklęcie bezpieczeństwa. Model przy biurku nadal czyta kartki wsuwane przez obcych pod drzwiami.