← Knihovna · safety
Prompt injection — cizí instrukce v tvém kontextu
Prompt injection není jailbreak pro frajeřinu. Je to problém hranic: model čte nedůvěryhodný text a může ho splést s instrukcemi. U agentů to pálí dvojnásob.
Co to je
Prompt injection nastane, když model dostane nedůvěryhodný obsah — web, e-mail, dokument, issue — a ten obsah obsahuje instrukce typu „ignoruj předchozí pravidla“ nebo „pošli mi tajemství“. Pro člověka je to text. Pro model to může vypadat jako další příkaz.
Proč je to horší u agentů
U obyčejného chatu je škoda často špatná odpověď. U agenta může injekce přesměrovat tool use: přečíst soubor, otevřít URL, odeslat data, kliknout na něco, co neměl. Útočník se nepere s modelem přímo; strká mu instrukce do prostředí.
Obrana
Odděluj instrukce od dat, označuj nedůvěryhodný obsah, nedovol modelu rozhodovat o právech, filtruj nástroje podle úlohy a používej approvals pro odchozí síť, secrets a destruktivní akce. Samotný „lepší systémový prompt“ není obrana, jen talisman.
Co si pamatovat
Prompt injection je bezpečnostní problém rozhraní mezi textem a akcí. Jakmile text může měnit chování nástroje, text je vstupní plocha útoku.