#security | Lilith AI

⌕

CS EN PL

Zacznij

Z Radaru

Radar · 2026-06-16

Android 17 zmienia Pixela w salon pokazowy Gemini

Google udostępnił Androida 17 i Wear OS 7 najpierw na urządzenia Pixel, razem z Pixel Drop z Gemini Omni, Lyria 3 i funkcjami tłumaczenia dla Pixela 10a. Ważniejszy od samej aktualizacji jest sygnał, że Android staje się dla Google kanałem dystrybucji modeli AI w telefonie.

Radar · 2026-06-16

SearchLeak pokazuje, dlaczego prompt injection w enterprise AI boli bardziej niż w czacie

Luka SearchLeak w Microsoft 365 Copilot Enterprise Search mogła według Varonis i Ars Technica pozwolić na kradzież e-maili, dokumentów albo kodów 2FA po kliknięciu w spreparowany link. Microsoft ją załatał, ale wniosek zostaje: agent z dostępem do firmowych danych jest produktem bezpieczeństwa, nie tylko asystentem produktywności.

Radar · 2026-06-15

Trzynaście słów na Reddicie może zatruć odpowiedź AI

Badanie opisane przez 404 Media twierdzi, że 13 słów w pobranym fragmencie tekstu z Reddita, Wikipedii, Quory lub Facebooka może popchnąć agentów AI w stronę spamu albo scamu. Dla AI search oznacza to przesunięcie SEO w obszar prompt injection i moderacji user-generated content.

Radar · 2026-06-14

Podejrzenia wokół Mythosa zamieniają kontrolę eksportu w kontrolę dostępu

The Verge, powołując się na Semafor, pisze, że Biały Dom ograniczył eksport Anthropic Mythos częściowo z powodu podejrzeń o dostęp grupy powiązanej z Chinami. Dla laboratoriów AI sygnał jest prosty: przy frontier models trzeba pilnować nie tylko publicznego API, lecz każdej ścieżki dostępu.

Radar · 2026-06-10

OpenAI wchodzi do Oracle Cloud po budżet, nie po efektowne demo

OpenAI udostępnia swoje modele i Codex klientom Oracle Cloud przez istniejące zobowiązania chmurowe. Dla zespołów enterprise ważny jest nie sam endpoint, ale to, że AI mieści się w umowach, governance i rozliczeniach, które firma już zna.

Radar · 2026-06-09

Gemini 3.5 Live Translate przesuwa tłumaczenie głosu kilka sekund za mówcę

Google ogłosił Gemini 3.5 Live Translate do niemal real-time voice-to-voice translation w ponad 70 językach. Praktyczne pytanie dotyczy nie tylko jakości tłumaczenia, ale też latencji, stabilności głosu, dostępności w Meet i odpowiedzialności za błąd w rozmowie na żywo.

Radar · 2026-05-07

Mozilla naprawiła setki błędów Firefoksa z Claude Mythos. Jakość raportów bezpieczeństwa AI właśnie się zmieniła.

Simon Willison opisał, jak Mozilla wykorzystała wczesny dostęp do Claude Mythos Preview do systematycznego wykrywania i naprawiania luk w Firefoksie. W kwietniu 2026 liczba naprawionych błędów bezpieczeństwa wzrosła do 423, wobec zwykłych 20 do 30 miesięcznie. Kluczowa zmiana: raporty bezpieczeństwa AI przestały być szumem i stały się przydatnym wejściem.

Radar · 2026-04-28

OpenAI warstwuje bezpieczeństwo ChatGPT od modelu do wykrywania nadużyć, ale liczb brakuje

OpenAI opisuje wielowarstwowe podejście do bezpieczeństwa społeczności ChatGPT: zabezpieczenia modelu, wykrywanie nadużyć, egzekwowanie polityk i współpraca z zewnętrznymi ekspertami.

Radar · 2026-04-23

OpenAI płaci do 25 000 dolarów za bio jailbreaki w GPT-5.5, a dowodem będą zagregowane wyniki

OpenAI uruchamia program bio bug bounty skupiony na uniwersalnych jailbreakach w GPT-5.5, z nagrodami do 25 000 dolarów za krytyczne ustalenia dotyczące bezpieczeństwa biologicznego.

Radar · 2025-12-18

GPT-5.2-Codex celuje w long-horizon refaktoryzacje, dowodem będą niezależne testy produkcyjne

GPT-5.2-Codex jest ukierunkowany na długoterminowe zadania kodowania w dużym kontekście: wielkoskalowe transformacje kodu, poprawki bezpieczeństwa i spójność wielu plików.

Radar · 2025-11-19

System card GPT-5.1-Codex-Max warto przeczytać, ale ufaj mu proporcjonalnie do szczegółowości jego ograniczeń

System card GPT-5.1-Codex-Max opisuje dwie warstwy bezpieczeństwa: trening bezpieczeństwa na poziomie modelu i ochrona przed prompt injection, sandboxing na poziomie produktu i konfigurowalny dostęp do sieci.

Radar · 2025-11-02

Dwie nowe prace o prompt injection: Rule of Two ujawnia ryzyko strukturalne, atakujący adaptuje się do obrony

Simon Willison zwrócił uwagę na dwie nowe prace o prompt injection dla agentów. Rule of Two od Meta mówi, że system jest bezpieczny tylko wtedy, gdy posiada naraz co najwyżej dwie z trzech właściwości: przyjmuje niezaufane wejście, uzyskuje dostęp do wrażliwych danych, zmienia stan lub komunikuje się na zewnątrz. Druga praca badaczy z OpenAI, Anthropic i DeepMind wykazała, że 12 opublikowanych zabezpieczeń zostało ominętych przez adaptacyjne ataki z ponad 90-procentową skutecznością.

Radar · 2025-10-29

OpenAI otwiera klasyfikację treści opartą na policy: modele safeguard działają w czasie rzeczywistym

OpenAI wydała gpt-oss-safeguard-120b i 20b: open-weight modele reasoning, w których policy klasyfikacji treści nie jest wbudowana w wagi, lecz podawana w czasie działania. Organizacje dostarczają własne zasady, a model na ich podstawie podejmuje decyzje.

Radar · 2025-09-05

Modele halucynują z powodu sposobu trenowania i ewaluacji, nie dlatego, że są głupie

Tekst OpenAI z września 2025 dociera do korzenia halucynacji: modele uczą się grać w grę ewaluacji, a nie odpowiadać prawdziwie. Jeśli evale karzą za przyznaną niepewność surowiej niż za pewny błąd, modele kalibrują się na przekonywalność.

Radar · 2025-08-27

OpenAI i Anthropic testowały wzajemnie swoje modele. Wyniki pouczające, metodologia nadal otwarta.

OpenAI i Anthropic opublikowały wyniki wspólnej ewaluacji bezpieczeństwa: testowały wzajemnie swoje modele pod kątem misalignmentu, instruction following, halucynacji i jailbreakingu. Po raz pierwszy dwa czołowe laboratoria pokazują, gdzie zewnętrzne oczy wykrywają ich ślepe punkty.

Ze Słownika

Słownik

Bezpieczeństwo agentów i sandboxing

Agent z narzędziami to mała maszyna do konsekwencji. Sandbox, approvals, least privilege i audit log nie są dekoracją enterprise, tylko hamulcami przed pożarem.

Słownik

Prompt injection — obce instrukcje w twoim kontekście

Prompt injection to nie popisowy jailbreak. To problem granic: model czyta niezaufany tekst i może pomylić go z instrukcjami. Przy agentach pali dwa razy mocniej.

Słownik

Niezawodność modeli — gdy ładna odpowiedź nie wystarcza

Niezawodność dotyczy tego, kiedy model wie, kiedy nie wie, kiedy zmyśla i jak często można ufać jego wyjściu w produkcji. Elegancki styl nie jest dowodem.