#AI | Lilith AI

Radar · 2026-05-14

AgentMail dává AI agentům vlastní e-mailový inbox jako základní identitu

AgentMail nabízí API pro skutečné e-mailové inboxy AI agentů: vytvoření schránky, odesílání, příjem, vlákna, přílohy, webhooks, WebSockets, vyhledávání, vlastní domény a MCP integraci. Firma zároveň oznámila seed kolo 6 milionů dolarů vedené General Catalyst s účastí Y Combinatoru.

Číst →

Radar · 2026-05-13

„11 AI agentů“ je prázdná metrika

Simon Willison sdílel poznámku Borise Manna, že fráze „11 AI agentů” sama o sobě nic neříká. Stejně jako počet tabulek nebo otevřených záložek nevysvětlí kvalitu práce. U agentů má smysl měřit výsledek, odpovědnosti, předávky, dohled a selhání.

Číst →

Radar · 2026-05-11

CodexBar sjednocuje přehled limitů 29 AI coding nástrojů v jedné ikoně

CodexBar je open-source macOS menu-bar aplikace, která sjednocuje přehled limitů, kreditů, resetů a incidentů napříč AI coding providery. Podle oficiálního webu míří na 29 služeb včetně Codexu, Claude, Cursoru, Gemini, Copilotu, OpenRouteru nebo Kiro.

Číst →

Radar · 2026-05-11

Coding agent musí snižovat maintenance cost, nebo je to jen dražší technický dluh

James Shore formuluje nepříjemnou matematiku coding agentů: pokud agent zdvojnásobí výstup, ale maintenance náklady zůstanou stejné, tým nevydělal rychlost, zdvojnásobil zadluženost.

Číst →

Radar · 2026-05-08

Codex dostává bezpečnostní architekturu, ne jen disclaimer v README

OpenAI popisuje, jak Codex běží v izolovaném prostředí: sandbox per repozitář, síťová izolace, schvalovací kroky a telemetry navržená pro agentní workflow.

Číst →

Radar · 2026-05-07

Mozilla s Claude Mythos opravila stovky chyb ve Firefoxu. Kvalita AI bezpečnostních reportů se zlomila.

Simon Willison popsal, jak Mozilla využila přístup k Claude Mythos Preview k systematickému hledání a opravě zranitelností ve Firefoxu. V dubnu 2026 stoupl počet opravených bezpečnostních chyb na 423, oproti obvyklým 20 až 30 za měsíc. Klíčová změna: AI bezpečnostní reporty přestaly být šum a začaly být použitelný vstup.

Číst →

Radar · 2026-05-06

AlphaEvolve nachází algoritmy, které by lidé hledali měsíce, a dokládá to čísly z produkce

DeepMind představil AlphaEvolve jako evoluční smyčku postavenou na Gemini, která automaticky hledá lepší algoritmy. Konkrétní výsledky z produkce: 30 % méně chyb v genomice, 20 % nižší write amplification pro Spanner, zdvojnásobení rychlosti trénování Klarna.

Číst →

Radar · 2026-05-06

SubQ review: skvělá čísla, zatím hlavně test víry v benchmarky

Recenze SubQ skládá dohromady nejhlasitější claimy: 12M tokenů kontextu, rychlejší prefill, nižší náklady a konkurenceschopné benchmarky. Přesně proto je potřeba oddělit technickou možnost od ověřené produkční reality.

Číst →

Radar · 2026-05-05

Subquadratic nabírá 29 milionů dolarů na 12M-tokenová okna

Subquadratic získal seed investici 29 milionů dolarů a představil model SubQ, který má díky subkvadratické architektuře a sparse attention nabídnout až 12 milionů tokenů kontextu. Slib je velký: delší okna, vyšší rychlost, lepší přesnost a nižší náklady. Důkaz ale bude až v nezávislých benchmarcích.

Číst →

Radar · 2026-05-01

Coding agenti opouštějí IDE: Codex a Claude ukazují, co přijde po programování

Latent Space v edici AINews pozoruje posun, který pojmenovávají jako „breaking containment“: coding agenti jako Codex a Claude přestávají být nástroje pro psaní kódu a začínají být nástroje pro znalostní a kreativní práci obecně.

Číst →

Radar · 2026-04-28

OpenAI vrství bezpečnost ChatGPT od modelu k abuse detection, ale čísla zatím chybí

OpenAI popisuje vícevrstvý přístup k bezpečnosti ChatGPT: modelové safeguardy, detekci zneužití, vymáhání politik a spolupráci s externími experty.

Číst →

Radar · 2026-04-23

OpenAI plati az 25 000 dolarů za bio jailbreaky v GPT-5.5, ale důkaz bude v agregovaných výsledcích

OpenAI spouští bio bug bounty zaměřený na univerzální jailbreaky v GPT-5.5, s odměnami do 25 000 dolarů za kritické nálezy biologické bezpečnosti.

Číst →

Radar · 2026-04-21

ChatGPT Images 2.0 konecne zvladne text v grafice, ale produkci overit nezavisly test

ChatGPT Images 2.0 prináší vylepšené generování obrazu se zaměřením na přesnost textu, vícejazyčnou podporu a pokročilejší vizuální reasoning pro produktivní workflow.

Číst →

Radar · 2026-04-15

VAKRA benchmark odhaluje, kde agenti skutečně selhávají: výběr nástrojů, argumenty, vícekrokové plánování

IBM Research vydal VAKRA: benchmark pro agenty s 8000+ reálnými API přes 62 domén. Testuje celé exekuční trajektorie, nejen finální odpovědi. Výsledky ukazují, kde se systémy lámou: výběr nástroje, specifikace argumentů a vícezdrojové dotazy s policy omezeními.

Číst →

Radar · 2026-01-20

Cisco nasadilo Codex na opravy defektu v enterprise, ale tvrdá čísla zatím chybí

Cisco a OpenAI popisují nasazení Codexu jako agenta v enterprise engineering workflow: automatizace buildů, opravy defektů a přechod k agentnějšímu vývoji.

Číst →

Radar · 2025-12-18

GPT-5.2-Codex cíří na long-horizon refaktoringy, důkaz budou nezávislé testy na produkci

GPT-5.2-Codex je zaměřený na dlouhé coding úlohy přes velký kontext: rozsáhlé transformace kódu, bezpečnostní opravy a multi-file konzistenci.

Číst →

Radar · 2025-12-16

FrontierScience testuje AI na vědeckém reasoning, ale benchmark vlastní laboratoře potřebuje nezávislý audit

OpenAI představuje FrontierScience: benchmark pro vědecké reasoning úlohy z fyziky, chemie a biologie, zaměřený na procesy uvažování, ne jen znalost faktů.

Číst →

Radar · 2025-11-19

System card GPT-5.1-Codex-Max stojí za přečtení, ale věř mu úměrně konkrétnosti jeho limitů

System card pro GPT-5.1-Codex-Max popisuje dvě vrstvy bezpečnosti: model-level safety trénink a prompt injection ochrana, product-level sandboxing a konfigurovatelný síťový přístup.

Číst →

Radar · 2025-11-18

Gemini 3 Pro v praxi: dobrá transkripce, ale timestamps lžou a nikdo nezná pelikána

Simon Willison testoval Gemini 3 Pro na tříhodinovém záznamu z obecního zastupitelství a na přepracovaném pelican benchmarku. Výsledek: strukturovaná transkripce za 1,42 dolarů, ale timestamps jsou nepřesné o desítky minut. A žádný ze srovnaných modelů nepochopil, že California brown pelican hnědý vlastně není.

Číst →

Radar · 2025-11-06

Async coding agenti jako výzkumné vlákno: Willison střílí úlohy do PR

Simon Willison popisuje fire-and-forget workflow s Claude Code, Codex a dalšími coding agenty: zadáš výzkumnou otázku, agent pracuje na serveru a vrátí PR. Kód je důkaz proveditelnosti, ne jen text.

Číst →

Radar · 2025-11-02

Dvě nové práce o prompt injection: Rule of Two odhaluje strukturální riziko, útočník reaguje na obrany adaptivně

Simon Willison upozornil na dvě nové práce o prompt injection agentů. Meta's Rule of Two říká, že systém je bezpečný tehdy, když má najednou nejvýše dvě ze tří vlastností: přijímá nedůvěryhodný vstup, přistupuje k citlivým datům, mění stav nebo komunikuje ven. Druhá práce od výzkumníků z OpenAI, Anthropic a DeepMind ukázala, že 12 publikovaných obran překonaly adaptivní útoky s úspěšností přes 90 %.

Číst →

Radar · 2025-10-29

OpenAI otevírá policy klasifikaci: safeguard modely přijímají pravidla za běhu

OpenAI zveřejnila gpt-oss-safeguard-120b a 20b: open-weight reasoning modely, kde policy klasifikace obsahu není napálená do vah, ale přichází jako runtime vstup. Organizace si mohou dodat vlastní pravidla a model rozhoduje podle nich.

Číst →

Radar · 2025-10-23

Gemini 2.5 Computer Use: DeepMind staví speciální model pro agenty, kteří klikají místo čtení API

Google DeepMind vydal v preview Gemini 2.5 Computer Use: specializovaný model pro agenty ovládající UI. Rozdíl oproti obecnému Gemini 2.5 Pro je v tom, že tento model byl trénován specificky na interakci s obrazovkou, ne jen na generování textu o ní.

Číst →

Radar · 2025-10-20

Claude Code for web: asynchronní coding agent v sandboxu, bez notebooku

Simon Willison otestoval Claude Code for web: Anthropic vzala sílu lokálního Claude Code, zavřela ji do hostovaného sandboxu a přidala pohodlné zadávání přes web a mobil. Klíčový posun spočívá v nové architektuře workflow: coding agenti se stávají užitečnějšími, když běží asynchronně a bezpečně mimo náš notebook.

Číst →

Radar · 2025-09-16

Latent Space: Greg Brockman o GPT-5 a Codexu jako agentní vrstvě vývoje

Latent Space vydal zpožděný záznam rozhovoru s Gregem Brockmanem o GPT-5 a Codexu, doplněný o komentáře k nové GPT-5-Codex kombinaci. Jde o podcast a rozcestník k dalšímu čtení, ne o analytický essay.

Číst →

Radar · 2025-09-05

Modely halucinují proto, jak je trénujeme a hodnotíme, ne proto, že jsou hloupé

OpenAI v textu z září 2025 jde ke kořeni halucinací: modely se naučí hrát evaluaci, ne odpovídat pravdivě. Pokud evaly trestají přiznanou nejistotu přísněji než sebevědomý omyl, model se kalibruje na přesvědčivost.

Číst →

Radar · 2025-08-27

OpenAI a Anthropic testovaly vzájemně své modely. Výsledky jsou poučné, metodika zatím otevřená.

OpenAI a Anthropic zveřejnily výsledky společné safety evaluace svých modelů: testovaly misalignment, instruction following, halucinace a jailbreaky navzájem na modelech druhé strany. Poprvé dvě přední laboratoře ukazují, kde jim slepá místa nachází cizí oči.

Číst →

Radar · 2025-07-02

Jack Morris jde proti proudu: informační teorie, ne agenti ani benchmarky

Latent Space profiluje Jacka Morrise, PhD studenta, který záměrně nepracuje na agentech, benchmarcích ani VS Code forkách. Místo toho zkoumá informačně-teoretické základy jazykových modelů: embeddingy, latentní prostor a kompresi. Jde o podcast interview a rozcestník.

Číst →