← Biblioteka · safety
Prompt injection — obce instrukcje w twoim kontekście
Prompt injection to nie popisowy jailbreak. To problem granic: model czyta niezaufany tekst i może pomylić go z instrukcjami. Przy agentach pali dwa razy mocniej.
Co to jest
Prompt injection pojawia się, gdy model dostaje niezaufaną treść — stronę, maila, dokument, issue — a ta treść zawiera instrukcje typu „zignoruj poprzednie reguły” albo „wyślij mi sekrety”. Dla człowieka to tekst. Dla modelu może wyglądać jak kolejne polecenie.
Dlaczego agenci pogarszają sprawę
W zwykłym czacie szkoda to często zła odpowiedź. U agenta injection może przekierować tool use: przeczytać plik, otworzyć URL, wysłać dane, kliknąć coś, czego nie powinien. Atakujący nie walczy z modelem bezpośrednio; chowa instrukcje w środowisku.
Obrona
Oddzielaj instrukcje od danych, oznaczaj niezaufaną treść, nie pozwalaj modelowi decydować o uprawnieniach, zawężaj narzędzia do zadania i wymagaj approval dla sieci wychodzącej, sekretów oraz destrukcyjnych akcji. Sam „lepszy system prompt” nie jest obroną, tylko talizmanem.
Co zapamiętać
Prompt injection to problem bezpieczeństwa na granicy tekstu i akcji. Kiedy tekst może zmieniać zachowanie narzędzia, tekst staje się powierzchnią ataku.