Prompt injection — cizí instrukce v tvém kontextu

Prompt injection není jailbreak pro frajeřinu. Je to problém hranic: model čte nedůvěryhodný text a může ho splést s instrukcemi. U agentů to pálí dvojnásob.

#agents #security

Co to je

Prompt injection nastane, když model dostane nedůvěryhodný obsah — web, e-mail, dokument, issue — a ten obsah obsahuje instrukce typu „ignoruj předchozí pravidla“ nebo „pošli mi tajemství“. Pro člověka je to text. Pro model to může vypadat jako další příkaz.

Proč je to horší u agentů

U obyčejného chatu je škoda často špatná odpověď. U agenta může injekce přesměrovat tool use: přečíst soubor, otevřít URL, odeslat data, kliknout na něco, co neměl. Útočník se nepere s modelem přímo; strká mu instrukce do prostředí.

Obrana

Odděluj instrukce od dat, označuj nedůvěryhodný obsah, nedovol modelu rozhodovat o právech, filtruj nástroje podle úlohy a používej approvals pro odchozí síť, secrets a destruktivní akce. Samotný „lepší systémový prompt“ není obrana, jen talisman.

Co si pamatovat

Prompt injection je bezpečnostní problém rozhraní mezi textem a akcí. Jakmile text může měnit chování nástroje, text je vstupní plocha útoku.

Prompt injection — cizí instrukce v tvém kontextu

Co to je

Proč je to horší u agentů

Obrana

Co si pamatovat

Souvisí z Radaru