Etykieta
#AI
Z Radaru
Radar · 2026-05-14
AgentMail daje agentom AI własną skrzynkę e-mail jako podstawową tożsamość
AgentMail oferuje prawdziwe skrzynki e-mail dla agentów AI: tworzenie inboxów, wysyłanie, odbiór, wątki, załączniki, webhooki, WebSockets, wyszukiwanie, własne domeny i integrację MCP. Firma ogłosiła rundę seed 6 mln dolarów prowadzoną przez General Catalyst z udziałem Y Combinatoru.
Czytaj →Radar · 2026-05-13
„11 agentów AI” to pusta metryka
Simon Willison przytoczył uwagę Borisa Manna, że hasło „11 agentów AI” samo w sobie nic nie znaczy. Mówi mniej więcej tyle co liczba arkuszy albo kart w przeglądarce. Liczą się wynik, granice odpowiedzialności, przepływ pracy, przekazania, obserwowalność, obsługa błędów, uprawnienia i kontrola człowieka.
Czytaj →Radar · 2026-05-11
CodexBar łączy śledzenie limitów 29 narzędzi AI coding w jednej ikonie
CodexBar to open-source owa aplikacja do paska menu macOS, która łączy śledzenie limitów, kredytów, okien resetów i statusu awarii dla 29 providerów AI coding, m.in. Codex, Claude, Cursor, Gemini, Copilot i OpenRouter.
Czytaj →Radar · 2026-05-11
Agent do kodowania, który nie obniża kosztów utrzymania, to tylko drogi dług techniczny
James Shore podaje niewygodną matematykę coding agents: jeśli agent podwaja output, ale koszty utrzymania pozostają stałe, zespół nie zyskał szybkości, lecz podwoił swój dług techniczny.
Czytaj →Radar · 2026-05-08
Codex dostaje architekturę bezpieczeństwa, nie tylko disclaimery w README
OpenAI opisuje, jak Codex działa w izolowanych środowiskach: sandbox per repozytorium, izolacja sieci, kroki zatwierdzania i telemetria natywna dla agentów.
Czytaj →Radar · 2026-05-07
Mozilla naprawiła setki błędów Firefoksa z Claude Mythos. Jakość raportów bezpieczeństwa AI właśnie się zmieniła.
Simon Willison opisał, jak Mozilla wykorzystała wczesny dostęp do Claude Mythos Preview do systematycznego wykrywania i naprawiania luk w Firefoksie. W kwietniu 2026 liczba naprawionych błędów bezpieczeństwa wzrosła do 423, wobec zwykłych 20 do 30 miesięcznie. Kluczowa zmiana: raporty bezpieczeństwa AI przestały być szumem i stały się przydatnym wejściem.
Czytaj →Radar · 2026-05-06
AlphaEvolve znajduje algorytmy w dni, na które zespoły poświęcały miesiące, z wynikami produkcyjnymi
DeepMind przedstawił AlphaEvolve jako ewolucyjną pętlę opartą na Gemini, która automatycznie odkrywa lepsze algorytmy. Konkretne wyniki produkcyjne: 30 % mniej błędów w genomice, 20 % niższe write amplification dla Spanner, Klarna podwoiła szybkość trenowania transformerów.
Czytaj →Radar · 2026-05-06
SubQ review: świetne liczby, ale na razie test wiary w benchmarki
Fello AI recenzuje twierdzenia SubQ: okno kontekstu 12M tokenów, 52x szybszy prefill niż FlashAttention na 1M tokenach i pozycjonowanie benchmarków blisko klasy frontier. Liczby są wystarczająco uderzające, by wymagały niezależnej weryfikacji przed zmianą decyzji architektonicznych.
Czytaj →Radar · 2026-05-05
Subquadratic pozyskuje 29 mln dolarów na okna 12M tokenów
Subquadratic wystartował z rundą seed o wartości 29 milionów dolarów i pokazał model SubQ, oparty na architekturze subkwadratowej oraz sparse attention. Firma obiecuje kontekst do 12 milionów tokenów, większą szybkość, lepszą dokładność i niższy koszt. Niezależne benchmarki dopiero to zweryfikują.
Czytaj →Radar · 2026-05-01
Agenci kodujący opuszczają IDE: Codex i Claude pokazują, co przychodzi po programowaniu
Latent Space AINews obserwuje zmianę, którą nazywają „breaking containment“: agenci kodujący jak Codex i Claude przestają być narzędziami do pisania kodu i zaczynają być narzędziami do pracy wiedzy i kreatywnej w ogóle.
Czytaj →Radar · 2026-04-28
OpenAI warstwuje bezpieczeństwo ChatGPT od modelu do wykrywania nadużyć, ale liczb brakuje
OpenAI opisuje wielowarstwowe podejście do bezpieczeństwa społeczności ChatGPT: zabezpieczenia modelu, wykrywanie nadużyć, egzekwowanie polityk i współpraca z zewnętrznymi ekspertami.
Czytaj →Radar · 2026-04-23
OpenAI płaci do 25 000 dolarów za bio jailbreaki w GPT-5.5, a dowodem będą zagregowane wyniki
OpenAI uruchamia program bio bug bounty skupiony na uniwersalnych jailbreakach w GPT-5.5, z nagrodami do 25 000 dolarów za krytyczne ustalenia dotyczące bezpieczeństwa biologicznego.
Czytaj →Radar · 2026-04-21
ChatGPT Images 2.0 nareszcie radzi sobie z tekstem w grafice, ale produkcje potwierdzą niezależne testy
ChatGPT Images 2.0 przynosi ulepszone generowanie obrazów z naciskiem na dokładność tekstu, wsparcie wielojęzyczne i zaawansowane rozumowanie wizualne dla workflow produkcyjnych.
Czytaj →Radar · 2026-04-15
Benchmark VAKRA ujawnia, gdzie agenci naprawdę zawodzą: wybór narzędzi, argumenty, wieloetapowe planowanie
IBM Research opublikował VAKRA: benchmark dla agentów z ponad 8000 realnymi API w 62 domenach. Ocenia pełne trajektorie wykonania, nie tylko końcowe odpowiedzi. Wyniki pokazują, gdzie systemy się łamią: wybór narzędzi, specyfikacja argumentów i wieloźródłowe zapytania z ograniczeniami policy.
Czytaj →Radar · 2026-01-20
Cisco wdrożyła Codex do naprawy defektów w enterprise, ale twardych liczb wciąż brakuje
Cisco i OpenAI opisują wdrożenie Codexa jako agenta w enterprise workflow inżynieryjnym: automatyzacja buildu, naprawa defektów i przejście do podejścia agentowego.
Czytaj →Radar · 2025-12-18
GPT-5.2-Codex celuje w long-horizon refaktoryzacje, dowodem będą niezależne testy produkcyjne
GPT-5.2-Codex jest ukierunkowany na długoterminowe zadania kodowania w dużym kontekście: wielkoskalowe transformacje kodu, poprawki bezpieczeństwa i spójność wielu plików.
Czytaj →Radar · 2025-12-16
FrontierScience testuje AI pod kątem rozumowania naukowego, ale benchmark własnego laboratorium potrzebuje niezależnego audytu
OpenAI przedstawia FrontierScience: benchmark zadań rozumowania naukowego z fizyki, chemii i biologii, skupiony na procesach rozumowania, a nie tylko na pamięci faktów.
Czytaj →Radar · 2025-11-19
System card GPT-5.1-Codex-Max warto przeczytać, ale ufaj mu proporcjonalnie do szczegółowości jego ograniczeń
System card GPT-5.1-Codex-Max opisuje dwie warstwy bezpieczeństwa: trening bezpieczeństwa na poziomie modelu i ochrona przed prompt injection, sandboxing na poziomie produktu i konfigurowalny dostęp do sieci.
Czytaj →Radar · 2025-11-18
Gemini 3 Pro w praktyce: niezła transkrypcja, błędne znaczniki czasu i żaden model nie zna pelikana
Simon Willison przetestował Gemini 3 Pro na trójgodzinnym nagraniu z rady miejskiej i na przejrzanym benchmarku z pelikanem. Wynik: ustrukturyzowana transkrypcja za 1,42 dolara, ale znaczniki czasu różnią się o dziesiątki minut. I żaden z porównywanych modeli nie pojął, że kalifornijski brązowy pelikan wcale nie jest brązowy.
Czytaj →Radar · 2025-11-06
Asynchroniczni agenci jako wątek badawczy: zadaj pytanie, dostań pull request
Simon Willison opisuje workflow fire-and-forget z Claude Code, Codex i innymi agentami: zadajesz pytanie badawcze, agent pracuje na serwerze i zgłasza pull request. Kod jest dowodem wykonalności, nie tylko tekstem.
Czytaj →Radar · 2025-11-02
Dwie nowe prace o prompt injection: Rule of Two ujawnia ryzyko strukturalne, atakujący adaptuje się do obrony
Simon Willison zwrócił uwagę na dwie nowe prace o prompt injection dla agentów. Rule of Two od Meta mówi, że system jest bezpieczny tylko wtedy, gdy posiada naraz co najwyżej dwie z trzech właściwości: przyjmuje niezaufane wejście, uzyskuje dostęp do wrażliwych danych, zmienia stan lub komunikuje się na zewnątrz. Druga praca badaczy z OpenAI, Anthropic i DeepMind wykazała, że 12 opublikowanych zabezpieczeń zostało ominętych przez adaptacyjne ataki z ponad 90-procentową skutecznością.
Czytaj →Radar · 2025-10-29
OpenAI otwiera klasyfikację treści opartą na policy: modele safeguard działają w czasie rzeczywistym
OpenAI wydała gpt-oss-safeguard-120b i 20b: open-weight modele reasoning, w których policy klasyfikacji treści nie jest wbudowana w wagi, lecz podawana w czasie działania. Organizacje dostarczają własne zasady, a model na ich podstawie podejmuje decyzje.
Czytaj →Radar · 2025-10-23
Gemini 2.5 Computer Use: DeepMind buduje wyspecjalizowany model dla agentów klikających zamiast wywołujących API
Google DeepMind wydał w wersji preview Gemini 2.5 Computer Use: wyspecjalizowany model dla agentów sterujących interfejsami użytkownika. W odróżnieniu od ogólnego Gemini 2.5 Pro, ten model był trenowany konkretnie pod kątem interakcji z ekranem, a nie tylko rozumowania o niej.
Czytaj →Radar · 2025-10-20
Claude Code for web: asynchroniczny agent kodujący w sandboxie, bez laptopa
Simon Willison przetestował Claude Code for web: Anthropic opakował doświadczenie lokalnego Claude Code w hostowany sandbox i udostępnił je z webu oraz telefonu. Najważniejsza zmiana to nie mocniejszy model, lecz zmiana workflow: agenci kodujący stają się użyteczniejsi, gdy mogą działać asynchronicznie i bezpiecznie poza laptopem.
Czytaj →Radar · 2025-09-16
Latent Space: Greg Brockman o GPT-5 i Codexie jako agentowej warstwie programowania
Latent Space opublikował spóźniony odcinek z Gregiem Brockmanem o GPT-5 i Codexie oraz komentarze redakcyjne do kombinacji GPT-5-Codex. To odcinek podcastu i drogowskaz, nie samodzielny esej analityczny.
Czytaj →Radar · 2025-09-05
Modele halucynują z powodu sposobu trenowania i ewaluacji, nie dlatego, że są głupie
Tekst OpenAI z września 2025 dociera do korzenia halucynacji: modele uczą się grać w grę ewaluacji, a nie odpowiadać prawdziwie. Jeśli evale karzą za przyznaną niepewność surowiej niż za pewny błąd, modele kalibrują się na przekonywalność.
Czytaj →Radar · 2025-08-27
OpenAI i Anthropic testowały wzajemnie swoje modele. Wyniki pouczające, metodologia nadal otwarta.
OpenAI i Anthropic opublikowały wyniki wspólnej ewaluacji bezpieczeństwa: testowały wzajemnie swoje modele pod kątem misalignmentu, instruction following, halucynacji i jailbreakingu. Po raz pierwszy dwa czołowe laboratoria pokazują, gdzie zewnętrzne oczy wykrywają ich ślepe punkty.
Czytaj →Radar · 2025-07-02
Jack Morris płynie pod prąd: teoria informacji zamiast agentów i benchmarków
Latent Space profiluje Jacka Morrisa, doktoranta, który celowo nie pracuje nad agentami, benchmarkami ani forkami VS Code. Bada on informacyjno-teoretyczne podstawy modeli językowych: embeddingi, przestrzeń ukrytą i kompresję. To wywiad podcastowy i drogowskaz.
Czytaj →