2025-11-02 · ← Radar
Dwie nowe prace o prompt injection: Rule of Two ujawnia ryzyko strukturalne, atakujący adaptuje się do obrony
Simon Willison zwrócił uwagę na dwie nowe prace akademickie o prompt injection dla agentów. Razem dają ustrukturyzowany obraz tego, dlaczego problem jest trudny do rozwiązania i dlaczego typowe podejścia obronne zawodzą.
Rule of Two: bezpieczeństwo agenta jako ograniczenie architektoniczne
Pierwsza praca pochodzi od Meta i formułuje tzw. Rule of Two. Teza jest prosta: agent jest strukturalnie bezpieczny tylko wtedy, gdy posiada naraz co najwyżej dwie z trzech właściwości: (A) przyjmuje niezaufane wejście (treści webowe, dokumenty, e-maile), (B) ma dostęp do wrażliwych danych lub systemów, (C) zmienia stan lub komunikuje się na zewnątrz.
Połączenie wszystkich trzech to „lethal trifecta“: agent czytający e-maile, mający dostęp do danych firmowych i mogący wysyłać wiadomości lub wywoływać API jest potencjalnie podatny na atak przez jedno niezaufane wejście. Praca rozszerza wcześniejsze modele zagrożeń, wprost włączając zmianę stanu, a nie tylko eksfiltrację danych.
Praktyczny wniosek: bezpieczeństwo agenta to wynik projektowania systemu, a nie produkt filtrów wejściowych. Jeśli architektura agenta łączy wszystkie trzy właściwości, żaden filtr promptów go nie uratuje.
Atakujący porusza się po obronie i ma czas na adaptację
Druga praca badaczy z OpenAI, Anthropic i DeepMind przetestowała 12 opublikowanych zabezpieczeń przed prompt injection. Metoda to nie statyczne ataki, lecz adaptacyjne: atakujący systematycznie dostrajali i skalowali ogólne techniki optymalizacyjne bezpośrednio pod każde konkretne zabezpieczenie. Wynik: dla większości zabezpieczeń skuteczność ataku przekroczyła 90 %. Ludzki red-teaming osiągnął 100 % skuteczności wobec wszystkich testowanych zabezpieczeń.
Tytuł „The Attacker Moves Second“ odnosi się do asymetrii: obrona jest widoczna i stała, atakujący bada ją i adaptuje się. Każda warstwa filtrowania lub mechanizm detekcji działający na opublikowanej metodologii może być systematycznie omijany.
Solidna techniczna obrona jeszcze nie istnieje; odpowiedzią jest architektura
Obie prace dochodzą do tego samego wniosku: solidna techniczna obrona przed prompt injection w systemach agentowych jeszcze nie istnieje. To wezwanie do podejścia architektonicznego, a nie fatalizm. Agenci z zatwierdzaniem destrukcyjnych działań przed wykonaniem, bez łączenia wrażliwych danych z niezaufanym wejściem, z ograniczonymi uprawnieniami są odporniejszy nie dlatego, że filtr jest lepszy, lecz dlatego, że powierzchnia ataku jest mniejsza.
To też stosunkowo świeże prace i ich zastosowanie do konkretnych systemów produkcyjnych będzie wymagało interpretacji.
Bez ograniczeń architektonicznych każdy silniejszy agent to większa powierzchnia ataku
Warto obserwować: adopcję Rule of Two lub podobnych frameworków architektonicznych przy projektowaniu systemów agentowych, i czy społeczność bezpieczeństwa przejdzie od „jak wykryć injection“ do „jak zaprojektować system, w którym injection nie ma efektu“. To istotna różnica.
Werdykt Lilith
Prompt injection to nie problem filtra. To problem architektury. Agent, który jednocześnie czyta niezaufane treści, trzyma wrażliwe dane i może działać, jest podatny na atak zanim zaczniesz myśleć o detekcji.
Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.
Oryginalne źródło ↗ ↗Ze Słownika