Štítek
#security
Z Radaru
Radar · 2026-06-16
Android 17 dělá z Pixelu výkladní skříň Gemini
Google vydal Android 17 a Wear OS 7 nejdřív pro Pixel zařízení a přibalil Pixel Drop s Gemini Omni, Lyria 3 a překladovými funkcemi pro Pixel 10a. Důležitější než samotný update je signál, že Google používá Android jako distribuci pro svoje AI modely přímo v telefonu.
Číst →Radar · 2026-06-16
SearchLeak ukazuje, proč prompt injection v enterprise AI bolí víc než v chatu
Zranitelnost SearchLeak v Microsoft 365 Copilot Enterprise Search umožňovala podle Varonis a Ars Technica krádež e-mailů, dokumentů nebo 2FA kódů po kliknutí na upravený odkaz. Microsoft chybu opravil, ale pointa zůstává: agent s přístupem k firemním datům je bezpečnostní produkt, ne jen produktivní asistent.
Číst →Radar · 2026-06-15
Třináct slov na Redditu stačí k otravě AI odpovědi
Výzkum popsaný 404 Media tvrdí, že už 13 slov v načteném textu z webů jako Reddit, Wikipedia, Quora nebo Facebook může přimět AI agenty doporučovat spam nebo scam. Pro AI search to posouvá problém SEO do prostoru prompt injection a moderace user-generated contentu.
Číst →Radar · 2026-06-14
Podezření kolem Mythosu mění exportní kontrolu na kontrolu úniku
The Verge s odkazem na Semafor píše, že Bílý dům omezil export Anthropic Mythos i kvůli podezření na přístup skupiny napojené na Čínu. Pro AI firmy je to varování: u frontier modelů už nestačí hlídat jen veřejné API, ale celý řetězec přístupu.
Číst →Radar · 2026-06-10
OpenAI jde do Oracle Cloudu kvůli nákupu, ne kvůli demu
OpenAI nabízí své modely a Codex zákazníkům Oracle Cloud tak, aby mohli využít existující cloudové závazky. Pro enterprise týmy je pointa méně technická a víc nákupní: AI se vejde do smluv, governance a účtování, které už firma zná.
Číst →Radar · 2026-06-09
Gemini 3.5 Live Translate posouvá překlad hlasu na pár sekund za mluvčího
Google oznámil Gemini 3.5 Live Translate pro téměř real-time voice-to-voice překlad ve více než 70 jazycích. Praktická otázka zahrnuje kvalitu překladu, latenci, stabilitu hlasu, dostupnost v Meetu a odpovědnost za chybu v živém hovoru.
Číst →Radar · 2026-05-07
Mozilla s Claude Mythos opravila stovky chyb ve Firefoxu. Kvalita AI bezpečnostních reportů se zlomila.
Simon Willison popsal, jak Mozilla využila přístup k Claude Mythos Preview k systematickému hledání a opravě zranitelností ve Firefoxu. V dubnu 2026 stoupl počet opravených bezpečnostních chyb na 423, oproti obvyklým 20 až 30 za měsíc. Klíčová změna: AI bezpečnostní reporty přestaly být šum a začaly být použitelný vstup.
Číst →Radar · 2026-04-28
OpenAI vrství bezpečnost ChatGPT od modelu k abuse detection, ale čísla zatím chybí
OpenAI popisuje vícevrstvý přístup k bezpečnosti ChatGPT: modelové safeguardy, detekci zneužití, vymáhání politik a spolupráci s externími experty.
Číst →Radar · 2026-04-23
OpenAI plati az 25 000 dolarů za bio jailbreaky v GPT-5.5, ale důkaz bude v agregovaných výsledcích
OpenAI spouští bio bug bounty zaměřený na univerzální jailbreaky v GPT-5.5, s odměnami do 25 000 dolarů za kritické nálezy biologické bezpečnosti.
Číst →Radar · 2025-12-18
GPT-5.2-Codex cíří na long-horizon refaktoringy, důkaz budou nezávislé testy na produkci
GPT-5.2-Codex je zaměřený na dlouhé coding úlohy přes velký kontext: rozsáhlé transformace kódu, bezpečnostní opravy a multi-file konzistenci.
Číst →Radar · 2025-11-19
System card GPT-5.1-Codex-Max stojí za přečtení, ale věř mu úměrně konkrétnosti jeho limitů
System card pro GPT-5.1-Codex-Max popisuje dvě vrstvy bezpečnosti: model-level safety trénink a prompt injection ochrana, product-level sandboxing a konfigurovatelný síťový přístup.
Číst →Radar · 2025-11-02
Dvě nové práce o prompt injection: Rule of Two odhaluje strukturální riziko, útočník reaguje na obrany adaptivně
Simon Willison upozornil na dvě nové práce o prompt injection agentů. Meta's Rule of Two říká, že systém je bezpečný tehdy, když má najednou nejvýše dvě ze tří vlastností: přijímá nedůvěryhodný vstup, přistupuje k citlivým datům, mění stav nebo komunikuje ven. Druhá práce od výzkumníků z OpenAI, Anthropic a DeepMind ukázala, že 12 publikovaných obran překonaly adaptivní útoky s úspěšností přes 90 %.
Číst →Radar · 2025-10-29
OpenAI otevírá policy klasifikaci: safeguard modely přijímají pravidla za běhu
OpenAI zveřejnila gpt-oss-safeguard-120b a 20b: open-weight reasoning modely, kde policy klasifikace obsahu není napálená do vah, ale přichází jako runtime vstup. Organizace si mohou dodat vlastní pravidla a model rozhoduje podle nich.
Číst →Radar · 2025-09-05
Modely halucinují proto, jak je trénujeme a hodnotíme, ne proto, že jsou hloupé
OpenAI v textu z září 2025 jde ke kořeni halucinací: modely se naučí hrát evaluaci, ne odpovídat pravdivě. Pokud evaly trestají přiznanou nejistotu přísněji než sebevědomý omyl, model se kalibruje na přesvědčivost.
Číst →Radar · 2025-08-27
OpenAI a Anthropic testovaly vzájemně své modely. Výsledky jsou poučné, metodika zatím otevřená.
OpenAI a Anthropic zveřejnily výsledky společné safety evaluace svých modelů: testovaly misalignment, instruction following, halucinace a jailbreaky navzájem na modelech druhé strany. Poprvé dvě přední laboratoře ukazují, kde jim slepá místa nachází cizí oči.
Číst →Ze Slovníku
Slovník
Bezpečnost agentů a sandboxing
Agent s nástroji je malý automat na následky. Sandbox, approvals, minimální oprávnění a audit log nejsou enterprise dekorace, ale brzdy před požárem.
Číst →Slovník
Prompt injection — cizí instrukce v tvém kontextu
Prompt injection není jailbreak pro frajeřinu. Je to problém hranic: model čte nedůvěryhodný text a může ho splést s instrukcemi. Průvodce obranou pro každého, kdo dává LLM nástroje.
Číst →Slovník
Spolehlivost modelů — když nestačí hezká odpověď
Spolehlivost je o tom, kdy model ví, kdy neví, kdy si vymýšlí a jak často se dá jeho výstupu věřit v provozu. Elegantní formulace není důkaz.
Číst →