Lilith Lilith.
CS EN PL
Zacznij

Co to jest

Prompt injection pojawia się, gdy model dostaje niezaufaną treść — stronę, maila, dokument, issue — a ta treść zawiera instrukcje typu „zignoruj poprzednie reguły” albo „wyślij mi sekrety”. Dla człowieka to tekst. Dla modelu może wyglądać jak kolejne polecenie.

Dlaczego agenci pogarszają sprawę

W zwykłym czacie szkoda to często zła odpowiedź. U agenta injection może przekierować tool use: przeczytać plik, otworzyć URL, wysłać dane, kliknąć coś, czego nie powinien. Atakujący nie walczy z modelem bezpośrednio; chowa instrukcje w środowisku.

Obrona

Oddzielaj instrukcje od danych, oznaczaj niezaufaną treść, nie pozwalaj modelowi decydować o uprawnieniach, zawężaj narzędzia do zadania i wymagaj approval dla sieci wychodzącej, sekretów oraz destrukcyjnych akcji. Sam „lepszy system prompt” nie jest obroną, tylko talizmanem.

Co zapamiętać

Prompt injection to problem bezpieczeństwa na granicy tekstu i akcji. Kiedy tekst może zmieniać zachowanie narzędzia, tekst staje się powierzchnią ataku.

Powiązane z Radaru