#AI | Lilith AI

Radar · 2026-05-14

AgentMail daje agentom AI własną skrzynkę e-mail jako podstawową tożsamość

AgentMail oferuje prawdziwe skrzynki e-mail dla agentów AI: tworzenie inboxów, wysyłanie, odbiór, wątki, załączniki, webhooki, WebSockets, wyszukiwanie, własne domeny i integrację MCP. Firma ogłosiła rundę seed 6 mln dolarów prowadzoną przez General Catalyst z udziałem Y Combinatoru.

Czytaj →

Radar · 2026-05-13

„11 agentów AI” to pusta metryka

Simon Willison przytoczył uwagę Borisa Manna, że hasło „11 agentów AI” samo w sobie nic nie znaczy. Mówi mniej więcej tyle co liczba arkuszy albo kart w przeglądarce. Liczą się wynik, granice odpowiedzialności, przepływ pracy, przekazania, obserwowalność, obsługa błędów, uprawnienia i kontrola człowieka.

Czytaj →

Radar · 2026-05-11

CodexBar łączy śledzenie limitów 29 narzędzi AI coding w jednej ikonie

CodexBar to open-source owa aplikacja do paska menu macOS, która łączy śledzenie limitów, kredytów, okien resetów i statusu awarii dla 29 providerów AI coding, m.in. Codex, Claude, Cursor, Gemini, Copilot i OpenRouter.

Czytaj →

Radar · 2026-05-11

Agent do kodowania, który nie obniża kosztów utrzymania, to tylko drogi dług techniczny

James Shore podaje niewygodną matematykę coding agents: jeśli agent podwaja output, ale koszty utrzymania pozostają stałe, zespół nie zyskał szybkości, lecz podwoił swój dług techniczny.

Czytaj →

Radar · 2026-05-08

Codex dostaje architekturę bezpieczeństwa, nie tylko disclaimery w README

OpenAI opisuje, jak Codex działa w izolowanych środowiskach: sandbox per repozytorium, izolacja sieci, kroki zatwierdzania i telemetria natywna dla agentów.

Czytaj →

Radar · 2026-05-07

Mozilla naprawiła setki błędów Firefoksa z Claude Mythos. Jakość raportów bezpieczeństwa AI właśnie się zmieniła.

Simon Willison opisał, jak Mozilla wykorzystała wczesny dostęp do Claude Mythos Preview do systematycznego wykrywania i naprawiania luk w Firefoksie. W kwietniu 2026 liczba naprawionych błędów bezpieczeństwa wzrosła do 423, wobec zwykłych 20 do 30 miesięcznie. Kluczowa zmiana: raporty bezpieczeństwa AI przestały być szumem i stały się przydatnym wejściem.

Czytaj →

Radar · 2026-05-06

AlphaEvolve znajduje algorytmy w dni, na które zespoły poświęcały miesiące, z wynikami produkcyjnymi

DeepMind przedstawił AlphaEvolve jako ewolucyjną pętlę opartą na Gemini, która automatycznie odkrywa lepsze algorytmy. Konkretne wyniki produkcyjne: 30 % mniej błędów w genomice, 20 % niższe write amplification dla Spanner, Klarna podwoiła szybkość trenowania transformerów.

Czytaj →

Radar · 2026-05-06

SubQ review: świetne liczby, ale na razie test wiary w benchmarki

Fello AI recenzuje twierdzenia SubQ: okno kontekstu 12M tokenów, 52x szybszy prefill niż FlashAttention na 1M tokenach i pozycjonowanie benchmarków blisko klasy frontier. Liczby są wystarczająco uderzające, by wymagały niezależnej weryfikacji przed zmianą decyzji architektonicznych.

Czytaj →

Radar · 2026-05-05

Subquadratic pozyskuje 29 mln dolarów na okna 12M tokenów

Subquadratic wystartował z rundą seed o wartości 29 milionów dolarów i pokazał model SubQ, oparty na architekturze subkwadratowej oraz sparse attention. Firma obiecuje kontekst do 12 milionów tokenów, większą szybkość, lepszą dokładność i niższy koszt. Niezależne benchmarki dopiero to zweryfikują.

Czytaj →

Radar · 2026-05-01

Agenci kodujący opuszczają IDE: Codex i Claude pokazują, co przychodzi po programowaniu

Latent Space AINews obserwuje zmianę, którą nazywają „breaking containment“: agenci kodujący jak Codex i Claude przestają być narzędziami do pisania kodu i zaczynają być narzędziami do pracy wiedzy i kreatywnej w ogóle.

Czytaj →

Radar · 2026-04-28

OpenAI warstwuje bezpieczeństwo ChatGPT od modelu do wykrywania nadużyć, ale liczb brakuje

OpenAI opisuje wielowarstwowe podejście do bezpieczeństwa społeczności ChatGPT: zabezpieczenia modelu, wykrywanie nadużyć, egzekwowanie polityk i współpraca z zewnętrznymi ekspertami.

Czytaj →

Radar · 2026-04-23

OpenAI płaci do 25 000 dolarów za bio jailbreaki w GPT-5.5, a dowodem będą zagregowane wyniki

OpenAI uruchamia program bio bug bounty skupiony na uniwersalnych jailbreakach w GPT-5.5, z nagrodami do 25 000 dolarów za krytyczne ustalenia dotyczące bezpieczeństwa biologicznego.

Czytaj →

Radar · 2026-04-21

ChatGPT Images 2.0 nareszcie radzi sobie z tekstem w grafice, ale produkcje potwierdzą niezależne testy

ChatGPT Images 2.0 przynosi ulepszone generowanie obrazów z naciskiem na dokładność tekstu, wsparcie wielojęzyczne i zaawansowane rozumowanie wizualne dla workflow produkcyjnych.

Czytaj →

Radar · 2026-04-15

Benchmark VAKRA ujawnia, gdzie agenci naprawdę zawodzą: wybór narzędzi, argumenty, wieloetapowe planowanie

IBM Research opublikował VAKRA: benchmark dla agentów z ponad 8000 realnymi API w 62 domenach. Ocenia pełne trajektorie wykonania, nie tylko końcowe odpowiedzi. Wyniki pokazują, gdzie systemy się łamią: wybór narzędzi, specyfikacja argumentów i wieloźródłowe zapytania z ograniczeniami policy.

Czytaj →

Radar · 2026-01-20

Cisco wdrożyła Codex do naprawy defektów w enterprise, ale twardych liczb wciąż brakuje

Cisco i OpenAI opisują wdrożenie Codexa jako agenta w enterprise workflow inżynieryjnym: automatyzacja buildu, naprawa defektów i przejście do podejścia agentowego.

Czytaj →

Radar · 2025-12-18

GPT-5.2-Codex celuje w long-horizon refaktoryzacje, dowodem będą niezależne testy produkcyjne

GPT-5.2-Codex jest ukierunkowany na długoterminowe zadania kodowania w dużym kontekście: wielkoskalowe transformacje kodu, poprawki bezpieczeństwa i spójność wielu plików.

Czytaj →

Radar · 2025-12-16

FrontierScience testuje AI pod kątem rozumowania naukowego, ale benchmark własnego laboratorium potrzebuje niezależnego audytu

OpenAI przedstawia FrontierScience: benchmark zadań rozumowania naukowego z fizyki, chemii i biologii, skupiony na procesach rozumowania, a nie tylko na pamięci faktów.

Czytaj →

Radar · 2025-11-19

System card GPT-5.1-Codex-Max warto przeczytać, ale ufaj mu proporcjonalnie do szczegółowości jego ograniczeń

System card GPT-5.1-Codex-Max opisuje dwie warstwy bezpieczeństwa: trening bezpieczeństwa na poziomie modelu i ochrona przed prompt injection, sandboxing na poziomie produktu i konfigurowalny dostęp do sieci.

Czytaj →

Radar · 2025-11-18

Gemini 3 Pro w praktyce: niezła transkrypcja, błędne znaczniki czasu i żaden model nie zna pelikana

Simon Willison przetestował Gemini 3 Pro na trójgodzinnym nagraniu z rady miejskiej i na przejrzanym benchmarku z pelikanem. Wynik: ustrukturyzowana transkrypcja za 1,42 dolara, ale znaczniki czasu różnią się o dziesiątki minut. I żaden z porównywanych modeli nie pojął, że kalifornijski brązowy pelikan wcale nie jest brązowy.

Czytaj →

Radar · 2025-11-06

Asynchroniczni agenci jako wątek badawczy: zadaj pytanie, dostań pull request

Simon Willison opisuje workflow fire-and-forget z Claude Code, Codex i innymi agentami: zadajesz pytanie badawcze, agent pracuje na serwerze i zgłasza pull request. Kod jest dowodem wykonalności, nie tylko tekstem.

Czytaj →

Radar · 2025-11-02

Dwie nowe prace o prompt injection: Rule of Two ujawnia ryzyko strukturalne, atakujący adaptuje się do obrony

Simon Willison zwrócił uwagę na dwie nowe prace o prompt injection dla agentów. Rule of Two od Meta mówi, że system jest bezpieczny tylko wtedy, gdy posiada naraz co najwyżej dwie z trzech właściwości: przyjmuje niezaufane wejście, uzyskuje dostęp do wrażliwych danych, zmienia stan lub komunikuje się na zewnątrz. Druga praca badaczy z OpenAI, Anthropic i DeepMind wykazała, że 12 opublikowanych zabezpieczeń zostało ominętych przez adaptacyjne ataki z ponad 90-procentową skutecznością.

Czytaj →

Radar · 2025-10-29

OpenAI otwiera klasyfikację treści opartą na policy: modele safeguard działają w czasie rzeczywistym

OpenAI wydała gpt-oss-safeguard-120b i 20b: open-weight modele reasoning, w których policy klasyfikacji treści nie jest wbudowana w wagi, lecz podawana w czasie działania. Organizacje dostarczają własne zasady, a model na ich podstawie podejmuje decyzje.

Czytaj →

Radar · 2025-10-23

Gemini 2.5 Computer Use: DeepMind buduje wyspecjalizowany model dla agentów klikających zamiast wywołujących API

Google DeepMind wydał w wersji preview Gemini 2.5 Computer Use: wyspecjalizowany model dla agentów sterujących interfejsami użytkownika. W odróżnieniu od ogólnego Gemini 2.5 Pro, ten model był trenowany konkretnie pod kątem interakcji z ekranem, a nie tylko rozumowania o niej.

Czytaj →

Radar · 2025-10-20

Claude Code for web: asynchroniczny agent kodujący w sandboxie, bez laptopa

Simon Willison przetestował Claude Code for web: Anthropic opakował doświadczenie lokalnego Claude Code w hostowany sandbox i udostępnił je z webu oraz telefonu. Najważniejsza zmiana to nie mocniejszy model, lecz zmiana workflow: agenci kodujący stają się użyteczniejsi, gdy mogą działać asynchronicznie i bezpiecznie poza laptopem.

Czytaj →

Radar · 2025-09-16

Latent Space: Greg Brockman o GPT-5 i Codexie jako agentowej warstwie programowania

Latent Space opublikował spóźniony odcinek z Gregiem Brockmanem o GPT-5 i Codexie oraz komentarze redakcyjne do kombinacji GPT-5-Codex. To odcinek podcastu i drogowskaz, nie samodzielny esej analityczny.

Czytaj →

Radar · 2025-09-05

Modele halucynują z powodu sposobu trenowania i ewaluacji, nie dlatego, że są głupie

Tekst OpenAI z września 2025 dociera do korzenia halucynacji: modele uczą się grać w grę ewaluacji, a nie odpowiadać prawdziwie. Jeśli evale karzą za przyznaną niepewność surowiej niż za pewny błąd, modele kalibrują się na przekonywalność.

Czytaj →

Radar · 2025-08-27

OpenAI i Anthropic testowały wzajemnie swoje modele. Wyniki pouczające, metodologia nadal otwarta.

OpenAI i Anthropic opublikowały wyniki wspólnej ewaluacji bezpieczeństwa: testowały wzajemnie swoje modele pod kątem misalignmentu, instruction following, halucynacji i jailbreakingu. Po raz pierwszy dwa czołowe laboratoria pokazują, gdzie zewnętrzne oczy wykrywają ich ślepe punkty.

Czytaj →

Radar · 2025-07-02

Jack Morris płynie pod prąd: teoria informacji zamiast agentów i benchmarków

Latent Space profiluje Jacka Morrisa, doktoranta, który celowo nie pracuje nad agentami, benchmarkami ani forkami VS Code. Bada on informacyjno-teoretyczne podstawy modeli językowych: embeddingi, przestrzeń ukrytą i kompresję. To wywiad podcastowy i drogowskaz.

Czytaj →