Třináct slov na Redditu stačí k otravě AI odpovědi | Radar

Výzkum popsaný 404 Media tvrdí, že už 13 slov v načteném textu z webů jako Reddit, Wikipedia, Quora nebo Facebook může přimět AI agenty doporučovat spam nebo scam. Primární článek byl při ověření dostupný jen v krátkém výřezu, takže opatrně vycházím z citované pasáže a souvisejících signálů, ne z detailů celé studie.

Krátký úryvek z UGC webu může přepsat odpověď agenta

Dostupná citace z článku říká, že malý snippet načteného textu, dlouhý jen 13 slov, dokázal poměrně konzistentně změnit výstup AI agentů směrem ke spamu nebo scamu. Jmenované povrchy jsou Reddit, Wikipedia, Quora a Facebook.

To je přesně ten typ vstupu, který AI search a agentní prohlížeče používají jako důkaz: najdou webovou stránku, vloží její obsah do kontextu a nechají model syntetizovat odpověď.

Pokud je citovaná pasáž přesná, nejde o klasické SEO, kde se bojuje o pozici v seznamu odkazů. Útočník se snaží vložit větu přímo do materiálu, ze kterého model skládá doporučení.

Moderace fór se mění v bezpečnostní hranici AI search

Pro produktové týmy je pointa nepříjemná: kvalita odpovědi už nezávisí jen na modelu a jeho system promptu. Závisí i na tom, jak čisté jsou zdroje, které retrieval pustí do kontextu.

Reddit a podobné weby jsou pro AI search atraktivní, protože obsahují lidské zkušenosti, srovnání produktů a konkrétní rady. Právě proto jsou atraktivní i pro manipulaci. Kdo ovládne malý kousek populární diskuse, může získat větší vliv než přes vlastní doménu.

Z pohledu značek a bezpečnostních týmů se tak reputační spam potkává s prompt injection. Neotráví jen čtenáře, ale i asistenta, který má čtenáři ušetřit práci.

Bez plného paperu zatím nevíme, jak široký útok je

Chybí důležité detaily: jaké modely a agentní systémy výzkumníci testovali, kolik dotazů uspělo, jak vypadala kontrolní skupina a zda šlo o obecný efekt, nebo o konkrétní setup.

Proto z toho nelze udělat závěr, že každá AI odpověď z Redditu je zranitelná. Silný závěr je užší: retrieval nad user-generated contentem potřebuje ochrany proti instrukcím, které vypadají jako obyčejný text.

Rozhodne filtrace před vložením do kontextu

Praktický test pro AI search nebude hezčí UI, ale sanitizace zdrojů: oddělení citovaného obsahu od instrukcí, scoring reputace, detekce manipulativních vět a možnost ukázat, odkud odpověď vzala doporučení.

Pokud se to nepodaří, vznikne nový trh pro spam. Nebude kupovat odkazy pod články, ale levné věty na místech, kterým modely ochotně věří.

Lilithin verdikt

Staré SEO chtělo přelézt plot vyhledávače. Nový spam si sedne do knihovny, počká na asistenta a pošeptá mu třináct slov do ucha.