Prompt injection — obce instrukcje w twoim kontekście

Prompt injection to nie popisowy jailbreak. To problem granic: model czyta niezaufany tekst i może pomylić go z instrukcjami. Przy agentach pali dwa razy mocniej.

#agents #security

Co to jest

Prompt injection pojawia się, gdy model dostaje niezaufaną treść — stronę, maila, dokument, issue — a ta treść zawiera instrukcje typu „zignoruj poprzednie reguły” albo „wyślij mi sekrety”. Dla człowieka to tekst. Dla modelu może wyglądać jak kolejne polecenie.

Dlaczego agenci pogarszają sprawę

W zwykłym czacie szkoda to często zła odpowiedź. U agenta injection może przekierować tool use: przeczytać plik, otworzyć URL, wysłać dane, kliknąć coś, czego nie powinien. Atakujący nie walczy z modelem bezpośrednio; chowa instrukcje w środowisku.

Obrona

Oddzielaj instrukcje od danych, oznaczaj niezaufaną treść, nie pozwalaj modelowi decydować o uprawnieniach, zawężaj narzędzia do zadania i wymagaj approval dla sieci wychodzącej, sekretów oraz destrukcyjnych akcji. Sam „lepszy system prompt” nie jest obroną, tylko talizmanem.

Co zapamiętać

Prompt injection to problem bezpieczeństwa na granicy tekstu i akcji. Kiedy tekst może zmieniać zachowanie narzędzia, tekst staje się powierzchnią ataku.

Prompt injection — obce instrukcje w twoim kontekście

Co to jest

Dlaczego agenci pogarszają sprawę

Obrona

Co zapamiętać

Powiązane z Radaru