Etykieta
#security
Z Radaru
Radar · 2026-06-16
Android 17 zmienia Pixela w salon pokazowy Gemini
Google udostępnił Androida 17 i Wear OS 7 najpierw na urządzenia Pixel, razem z Pixel Drop z Gemini Omni, Lyria 3 i funkcjami tłumaczenia dla Pixela 10a. Ważniejszy od samej aktualizacji jest sygnał, że Android staje się dla Google kanałem dystrybucji modeli AI w telefonie.
Czytaj →Radar · 2026-06-16
SearchLeak pokazuje, dlaczego prompt injection w enterprise AI boli bardziej niż w czacie
Luka SearchLeak w Microsoft 365 Copilot Enterprise Search mogła według Varonis i Ars Technica pozwolić na kradzież e-maili, dokumentów albo kodów 2FA po kliknięciu w spreparowany link. Microsoft ją załatał, ale wniosek zostaje: agent z dostępem do firmowych danych jest produktem bezpieczeństwa, nie tylko asystentem produktywności.
Czytaj →Radar · 2026-06-15
Trzynaście słów na Reddicie może zatruć odpowiedź AI
Badanie opisane przez 404 Media twierdzi, że 13 słów w pobranym fragmencie tekstu z Reddita, Wikipedii, Quory lub Facebooka może popchnąć agentów AI w stronę spamu albo scamu. Dla AI search oznacza to przesunięcie SEO w obszar prompt injection i moderacji user-generated content.
Czytaj →Radar · 2026-06-14
Podejrzenia wokół Mythosa zamieniają kontrolę eksportu w kontrolę dostępu
The Verge, powołując się na Semafor, pisze, że Biały Dom ograniczył eksport Anthropic Mythos częściowo z powodu podejrzeń o dostęp grupy powiązanej z Chinami. Dla laboratoriów AI sygnał jest prosty: przy frontier models trzeba pilnować nie tylko publicznego API, lecz każdej ścieżki dostępu.
Czytaj →Radar · 2026-06-10
OpenAI wchodzi do Oracle Cloud po budżet, nie po efektowne demo
OpenAI udostępnia swoje modele i Codex klientom Oracle Cloud przez istniejące zobowiązania chmurowe. Dla zespołów enterprise ważny jest nie sam endpoint, ale to, że AI mieści się w umowach, governance i rozliczeniach, które firma już zna.
Czytaj →Radar · 2026-06-09
Gemini 3.5 Live Translate przesuwa tłumaczenie głosu kilka sekund za mówcę
Google ogłosił Gemini 3.5 Live Translate do niemal real-time voice-to-voice translation w ponad 70 językach. Praktyczne pytanie dotyczy nie tylko jakości tłumaczenia, ale też latencji, stabilności głosu, dostępności w Meet i odpowiedzialności za błąd w rozmowie na żywo.
Czytaj →Radar · 2026-05-07
Mozilla naprawiła setki błędów Firefoksa z Claude Mythos. Jakość raportów bezpieczeństwa AI właśnie się zmieniła.
Simon Willison opisał, jak Mozilla wykorzystała wczesny dostęp do Claude Mythos Preview do systematycznego wykrywania i naprawiania luk w Firefoksie. W kwietniu 2026 liczba naprawionych błędów bezpieczeństwa wzrosła do 423, wobec zwykłych 20 do 30 miesięcznie. Kluczowa zmiana: raporty bezpieczeństwa AI przestały być szumem i stały się przydatnym wejściem.
Czytaj →Radar · 2026-04-28
OpenAI warstwuje bezpieczeństwo ChatGPT od modelu do wykrywania nadużyć, ale liczb brakuje
OpenAI opisuje wielowarstwowe podejście do bezpieczeństwa społeczności ChatGPT: zabezpieczenia modelu, wykrywanie nadużyć, egzekwowanie polityk i współpraca z zewnętrznymi ekspertami.
Czytaj →Radar · 2026-04-23
OpenAI płaci do 25 000 dolarów za bio jailbreaki w GPT-5.5, a dowodem będą zagregowane wyniki
OpenAI uruchamia program bio bug bounty skupiony na uniwersalnych jailbreakach w GPT-5.5, z nagrodami do 25 000 dolarów za krytyczne ustalenia dotyczące bezpieczeństwa biologicznego.
Czytaj →Radar · 2025-12-18
GPT-5.2-Codex celuje w long-horizon refaktoryzacje, dowodem będą niezależne testy produkcyjne
GPT-5.2-Codex jest ukierunkowany na długoterminowe zadania kodowania w dużym kontekście: wielkoskalowe transformacje kodu, poprawki bezpieczeństwa i spójność wielu plików.
Czytaj →Radar · 2025-11-19
System card GPT-5.1-Codex-Max warto przeczytać, ale ufaj mu proporcjonalnie do szczegółowości jego ograniczeń
System card GPT-5.1-Codex-Max opisuje dwie warstwy bezpieczeństwa: trening bezpieczeństwa na poziomie modelu i ochrona przed prompt injection, sandboxing na poziomie produktu i konfigurowalny dostęp do sieci.
Czytaj →Radar · 2025-11-02
Dwie nowe prace o prompt injection: Rule of Two ujawnia ryzyko strukturalne, atakujący adaptuje się do obrony
Simon Willison zwrócił uwagę na dwie nowe prace o prompt injection dla agentów. Rule of Two od Meta mówi, że system jest bezpieczny tylko wtedy, gdy posiada naraz co najwyżej dwie z trzech właściwości: przyjmuje niezaufane wejście, uzyskuje dostęp do wrażliwych danych, zmienia stan lub komunikuje się na zewnątrz. Druga praca badaczy z OpenAI, Anthropic i DeepMind wykazała, że 12 opublikowanych zabezpieczeń zostało ominętych przez adaptacyjne ataki z ponad 90-procentową skutecznością.
Czytaj →Radar · 2025-10-29
OpenAI otwiera klasyfikację treści opartą na policy: modele safeguard działają w czasie rzeczywistym
OpenAI wydała gpt-oss-safeguard-120b i 20b: open-weight modele reasoning, w których policy klasyfikacji treści nie jest wbudowana w wagi, lecz podawana w czasie działania. Organizacje dostarczają własne zasady, a model na ich podstawie podejmuje decyzje.
Czytaj →Radar · 2025-09-05
Modele halucynują z powodu sposobu trenowania i ewaluacji, nie dlatego, że są głupie
Tekst OpenAI z września 2025 dociera do korzenia halucynacji: modele uczą się grać w grę ewaluacji, a nie odpowiadać prawdziwie. Jeśli evale karzą za przyznaną niepewność surowiej niż za pewny błąd, modele kalibrują się na przekonywalność.
Czytaj →Radar · 2025-08-27
OpenAI i Anthropic testowały wzajemnie swoje modele. Wyniki pouczające, metodologia nadal otwarta.
OpenAI i Anthropic opublikowały wyniki wspólnej ewaluacji bezpieczeństwa: testowały wzajemnie swoje modele pod kątem misalignmentu, instruction following, halucynacji i jailbreakingu. Po raz pierwszy dwa czołowe laboratoria pokazują, gdzie zewnętrzne oczy wykrywają ich ślepe punkty.
Czytaj →Ze Słownika
Słownik
Bezpieczeństwo agentów i sandboxing
Agent z narzędziami to mała maszyna do konsekwencji. Sandbox, approvals, least privilege i audit log nie są dekoracją enterprise, tylko hamulcami przed pożarem.
Czytaj →Słownik
Prompt injection — obce instrukcje w twoim kontekście
Prompt injection to nie popisowy jailbreak. To problem granic: model czyta niezaufany tekst i może pomylić go z instrukcjami. Przy agentach pali dwa razy mocniej.
Czytaj →Słownik
Niezawodność modeli — gdy ładna odpowiedź nie wystarcza
Niezawodność dotyczy tego, kiedy model wie, kiedy nie wie, kiedy zmyśla i jak często można ufać jego wyjściu w produkcji. Elegancki styl nie jest dowodem.
Czytaj →