Dwie nowe prace o prompt injection: Rule of Two ujawnia ryzyko strukturalne, atakujący adaptuje się do obrony | Radar

Simon Willison zwrócił uwagę na dwie nowe prace akademickie o prompt injection dla agentów. Razem dają ustrukturyzowany obraz tego, dlaczego problem jest trudny do rozwiązania i dlaczego typowe podejścia obronne zawodzą.

Rule of Two: bezpieczeństwo agenta jako ograniczenie architektoniczne

Pierwsza praca pochodzi od Meta i formułuje tzw. Rule of Two. Teza jest prosta: agent jest strukturalnie bezpieczny tylko wtedy, gdy posiada naraz co najwyżej dwie z trzech właściwości: (A) przyjmuje niezaufane wejście (treści webowe, dokumenty, e-maile), (B) ma dostęp do wrażliwych danych lub systemów, (C) zmienia stan lub komunikuje się na zewnątrz.

Połączenie wszystkich trzech to „lethal trifecta“: agent czytający e-maile, mający dostęp do danych firmowych i mogący wysyłać wiadomości lub wywoływać API jest potencjalnie podatny na atak przez jedno niezaufane wejście. Praca rozszerza wcześniejsze modele zagrożeń, wprost włączając zmianę stanu, a nie tylko eksfiltrację danych.

Praktyczny wniosek: bezpieczeństwo agenta to wynik projektowania systemu, a nie produkt filtrów wejściowych. Jeśli architektura agenta łączy wszystkie trzy właściwości, żaden filtr promptów go nie uratuje.

Atakujący porusza się po obronie i ma czas na adaptację

Druga praca badaczy z OpenAI, Anthropic i DeepMind przetestowała 12 opublikowanych zabezpieczeń przed prompt injection. Metoda to nie statyczne ataki, lecz adaptacyjne: atakujący systematycznie dostrajali i skalowali ogólne techniki optymalizacyjne bezpośrednio pod każde konkretne zabezpieczenie. Wynik: dla większości zabezpieczeń skuteczność ataku przekroczyła 90 %. Ludzki red-teaming osiągnął 100 % skuteczności wobec wszystkich testowanych zabezpieczeń.

Tytuł „The Attacker Moves Second“ odnosi się do asymetrii: obrona jest widoczna i stała, atakujący bada ją i adaptuje się. Każda warstwa filtrowania lub mechanizm detekcji działający na opublikowanej metodologii może być systematycznie omijany.

Solidna techniczna obrona jeszcze nie istnieje; odpowiedzią jest architektura

Obie prace dochodzą do tego samego wniosku: solidna techniczna obrona przed prompt injection w systemach agentowych jeszcze nie istnieje. To wezwanie do podejścia architektonicznego, a nie fatalizm. Agenci z zatwierdzaniem destrukcyjnych działań przed wykonaniem, bez łączenia wrażliwych danych z niezaufanym wejściem, z ograniczonymi uprawnieniami są odporniejszy nie dlatego, że filtr jest lepszy, lecz dlatego, że powierzchnia ataku jest mniejsza.

To też stosunkowo świeże prace i ich zastosowanie do konkretnych systemów produkcyjnych będzie wymagało interpretacji.

Bez ograniczeń architektonicznych każdy silniejszy agent to większa powierzchnia ataku

Warto obserwować: adopcję Rule of Two lub podobnych frameworków architektonicznych przy projektowaniu systemów agentowych, i czy społeczność bezpieczeństwa przejdzie od „jak wykryć injection“ do „jak zaprojektować system, w którym injection nie ma efektu“. To istotna różnica.

Werdykt Lilith

Prompt injection to nie problem filtra. To problem architektury. Agent, który jednocześnie czyta niezaufane treści, trzyma wrażliwe dane i może działać, jest podatny na atak zanim zaczniesz myśleć o detekcji.