#security | Lilith AI

⌕

CS EN PL

Začít

Z Radaru

Radar · 2026-06-16

Android 17 dělá z Pixelu výkladní skříň Gemini

Google vydal Android 17 a Wear OS 7 nejdřív pro Pixel zařízení a přibalil Pixel Drop s Gemini Omni, Lyria 3 a překladovými funkcemi pro Pixel 10a. Důležitější než samotný update je signál, že Google používá Android jako distribuci pro svoje AI modely přímo v telefonu.

Radar · 2026-06-16

SearchLeak ukazuje, proč prompt injection v enterprise AI bolí víc než v chatu

Zranitelnost SearchLeak v Microsoft 365 Copilot Enterprise Search umožňovala podle Varonis a Ars Technica krádež e-mailů, dokumentů nebo 2FA kódů po kliknutí na upravený odkaz. Microsoft chybu opravil, ale pointa zůstává: agent s přístupem k firemním datům je bezpečnostní produkt, ne jen produktivní asistent.

Radar · 2026-06-15

Třináct slov na Redditu stačí k otravě AI odpovědi

Výzkum popsaný 404 Media tvrdí, že už 13 slov v načteném textu z webů jako Reddit, Wikipedia, Quora nebo Facebook může přimět AI agenty doporučovat spam nebo scam. Pro AI search to posouvá problém SEO do prostoru prompt injection a moderace user-generated contentu.

Radar · 2026-06-14

Podezření kolem Mythosu mění exportní kontrolu na kontrolu úniku

The Verge s odkazem na Semafor píše, že Bílý dům omezil export Anthropic Mythos i kvůli podezření na přístup skupiny napojené na Čínu. Pro AI firmy je to varování: u frontier modelů už nestačí hlídat jen veřejné API, ale celý řetězec přístupu.

Radar · 2026-06-10

OpenAI jde do Oracle Cloudu kvůli nákupu, ne kvůli demu

OpenAI nabízí své modely a Codex zákazníkům Oracle Cloud tak, aby mohli využít existující cloudové závazky. Pro enterprise týmy je pointa méně technická a víc nákupní: AI se vejde do smluv, governance a účtování, které už firma zná.

Radar · 2026-06-09

Gemini 3.5 Live Translate posouvá překlad hlasu na pár sekund za mluvčího

Google oznámil Gemini 3.5 Live Translate pro téměř real-time voice-to-voice překlad ve více než 70 jazycích. Praktická otázka zahrnuje kvalitu překladu, latenci, stabilitu hlasu, dostupnost v Meetu a odpovědnost za chybu v živém hovoru.

Radar · 2026-05-07

Mozilla s Claude Mythos opravila stovky chyb ve Firefoxu. Kvalita AI bezpečnostních reportů se zlomila.

Simon Willison popsal, jak Mozilla využila přístup k Claude Mythos Preview k systematickému hledání a opravě zranitelností ve Firefoxu. V dubnu 2026 stoupl počet opravených bezpečnostních chyb na 423, oproti obvyklým 20 až 30 za měsíc. Klíčová změna: AI bezpečnostní reporty přestaly být šum a začaly být použitelný vstup.

Radar · 2026-04-28

OpenAI vrství bezpečnost ChatGPT od modelu k abuse detection, ale čísla zatím chybí

OpenAI popisuje vícevrstvý přístup k bezpečnosti ChatGPT: modelové safeguardy, detekci zneužití, vymáhání politik a spolupráci s externími experty.

Radar · 2026-04-23

OpenAI plati az 25 000 dolarů za bio jailbreaky v GPT-5.5, ale důkaz bude v agregovaných výsledcích

OpenAI spouští bio bug bounty zaměřený na univerzální jailbreaky v GPT-5.5, s odměnami do 25 000 dolarů za kritické nálezy biologické bezpečnosti.

Radar · 2025-12-18

GPT-5.2-Codex cíří na long-horizon refaktoringy, důkaz budou nezávislé testy na produkci

GPT-5.2-Codex je zaměřený na dlouhé coding úlohy přes velký kontext: rozsáhlé transformace kódu, bezpečnostní opravy a multi-file konzistenci.

Radar · 2025-11-19

System card GPT-5.1-Codex-Max stojí za přečtení, ale věř mu úměrně konkrétnosti jeho limitů

System card pro GPT-5.1-Codex-Max popisuje dvě vrstvy bezpečnosti: model-level safety trénink a prompt injection ochrana, product-level sandboxing a konfigurovatelný síťový přístup.

Radar · 2025-11-02

Dvě nové práce o prompt injection: Rule of Two odhaluje strukturální riziko, útočník reaguje na obrany adaptivně

Simon Willison upozornil na dvě nové práce o prompt injection agentů. Meta's Rule of Two říká, že systém je bezpečný tehdy, když má najednou nejvýše dvě ze tří vlastností: přijímá nedůvěryhodný vstup, přistupuje k citlivým datům, mění stav nebo komunikuje ven. Druhá práce od výzkumníků z OpenAI, Anthropic a DeepMind ukázala, že 12 publikovaných obran překonaly adaptivní útoky s úspěšností přes 90 %.

Radar · 2025-10-29

OpenAI otevírá policy klasifikaci: safeguard modely přijímají pravidla za běhu

OpenAI zveřejnila gpt-oss-safeguard-120b a 20b: open-weight reasoning modely, kde policy klasifikace obsahu není napálená do vah, ale přichází jako runtime vstup. Organizace si mohou dodat vlastní pravidla a model rozhoduje podle nich.

Radar · 2025-09-05

Modely halucinují proto, jak je trénujeme a hodnotíme, ne proto, že jsou hloupé

OpenAI v textu z září 2025 jde ke kořeni halucinací: modely se naučí hrát evaluaci, ne odpovídat pravdivě. Pokud evaly trestají přiznanou nejistotu přísněji než sebevědomý omyl, model se kalibruje na přesvědčivost.

Radar · 2025-08-27

OpenAI a Anthropic testovaly vzájemně své modely. Výsledky jsou poučné, metodika zatím otevřená.

OpenAI a Anthropic zveřejnily výsledky společné safety evaluace svých modelů: testovaly misalignment, instruction following, halucinace a jailbreaky navzájem na modelech druhé strany. Poprvé dvě přední laboratoře ukazují, kde jim slepá místa nachází cizí oči.

Ze Slovníku

Slovník

Bezpečnost agentů a sandboxing

Agent s nástroji je malý automat na následky. Sandbox, approvals, minimální oprávnění a audit log nejsou enterprise dekorace, ale brzdy před požárem.

Slovník

Prompt injection — cizí instrukce v tvém kontextu

Prompt injection není jailbreak pro frajeřinu. Je to problém hranic: model čte nedůvěryhodný text a může ho splést s instrukcemi. Průvodce obranou pro každého, kdo dává LLM nástroje.

Slovník

Spolehlivost modelů — když nestačí hezká odpověď

Spolehlivost je o tom, kdy model ví, kdy neví, kdy si vymýšlí a jak často se dá jeho výstupu věřit v provozu. Elegantní formulace není důkaz.