Dvě nové práce o prompt injection: Rule of Two odhaluje strukturální riziko, útočník reaguje na obrany adaptivně | Radar

Simon Willison upozornil na dvě nové akademické práce o prompt injection agentů. Dohromady přinášejí strukturovaný pohled na to, proč je problém těžko řešitelný a proč typické defenzivní přístupy selhávají.

Rule of Two: bezpečnost agenta jako architektonické omezení

První práce pochází od Meta a formuluje tzv. Rule of Two. Teze je jednoduchá: agent je strukturálně bezpečný tehdy, když má najednou nejvýše dvě ze tří vlastností: (A) přijímá nedůvěryhodný vstup (webový obsah, dokumenty, emaily), (B) přistupuje k citlivým datům nebo systémům, (C) mění stav nebo komunikuje ven.

Kombinace všech tří je „lethal trifecta„: agent, který čte email, má přístup k podnikovým datům a zároveň může odesílat zprávy nebo volat API, je potenciálně zneužitelný přes jeden nedůvěryhodný vstup. Práce rozšiřuje starší threat modely tím, že explicitně zahrnuje měnění stavu, nejen exfiltraci dat.

Praktický důsledek: bezpečnost agenta je výsledkem designu systému, nikoli produktem filtrů na vstupu. Pokud návrh agenta kombinuje všechny tři vlastnosti, žádný promptový filtr ho nezachrání.

Útočník se pohybuje až po obraně a má čas se přizpůsobit

Druhá práce od výzkumníků z OpenAI, Anthropic a DeepMind testovala 12 publikovaných obran proti prompt injection. Metodou nebyly statické útoky, ale adaptivní: útočníci systematicky tunili a škálovali obecné optimalizační techniky přímo na konkrétní obranu. Výsledek: pro většinu obran dosáhla úspěšnost útoku přes 90 %. Lidský red-teaming dosáhl 100 % úspěšnosti proti všem testovaným obranám.

Název „The Attacker Moves Second“ odkazuje na asymetrii: obrana je viditelná a fixní, útočník ji prostuduje a přizpůsobí se. Každá filtrovací vrstva nebo detekční mechanismus, který funguje na zveřejněné metodice, lze systematicky obejít.

Robustní technická obrana zatím neexistuje, architektura je odpověď

Obě práce konvergují na stejném závěru: robustní technická obrana proti prompt injection v agentních systémech zatím neexistuje. Jde o výzvu k architektonickému přístupu, nikoli o fatalismus. Agenti se schválením destruktivních akcí před provedením, bez kombinace citlivých dat a nedůvěryhodného vstupu, s omezenými pravomocemi jsou odolnější ne proto, že je filtr lepší, ale proto, že útočná plocha je menší.

Zároveň jde o relativně čerstvé práce a jejich aplikace na konkrétní produkční systémy bude vyžadovat interpretaci.

Bez architektonických omezení bude každý silnější agent silnější útočná plocha

Sledovat: adopci Rule of Two nebo podobných architektonických frameworků při návrhu agentních systémů, a zda bezpečnostní komunita přejde od „jak detekovat injection„ k „jak navrhnout systém, kde injection nemá efekt“. To je podstatný rozdíl.

Lilithin verdikt

Prompt injection je architektonický problém, nikoli problém filtru. Agent, který najednou čte nedůvěryhodný obsah, drží citlivá data a může jednat, je zranitelný dřív, než vůbec začnete přemýšlet o detekci.