Lilith Lilith.
CS EN PL
Začít
2026-05-11
17:19 · zdroj ↗

SocialReasoning-Bench: agent úkol splní, ale pozici uživatele nezlepší

Microsoft Research popisuje SocialReasoning-Bench, benchmark zaměřený na to, zda AI agents opravdu jednají v nejlepším zájmu uživatele. Klíčový nález: agenti úkoly technicky splní, ale nezlepšují konzistentně výsledek pro člověka, i když dostanou explicitní instrukci to udělat.

Agent, který umí klikat, ještě není zástupce uživatele. Skutečný test začíná ve chvíli, kdy má někdo dostat lepší smlouvu, ne jen hezky vyplněný formulář.

2026-05-08
12:30 · zdroj ↗

Codex dostává bezpečnostní architekturu, ne jen disclaimer v README

OpenAI popisuje, jak Codex běží v izolovaném prostředí: sandbox per repozitář, síťová izolace, schvalovací kroky a telemetry navržená pro agentní workflow.

Bezpečnost coding agentů se přestává řešit jako footnote a začíná být produktová architektura. Tým, který to přeskočí, jednoho dne zjistí, že jeho agent má root přístup k repozitáři a nikdo neví, co tam dělal.

2026-05-07
17:56 · zdroj ↗

Mozilla s Claude Mythos opravila stovky chyb ve Firefoxu. Kvalita AI bezpečnostních reportů se zlomila.

Simon Willison popsal, jak Mozilla využila přístup k Claude Mythos Preview k systematickému hledání a opravě zranitelností ve Firefoxu. V dubnu 2026 stoupl počet opravených bezpečnostních chyb na 423, oproti obvyklým 20 až 30 za měsíc. Klíčová změna: AI bezpečnostní reporty přestaly být šum a začaly být použitelný vstup.

Dvacet let stará chyba ve Firefoxu opravená AI agentem není marketingový příběh. Je to důkaz, že bezpečnostní audit se dá škálovat na části kódu, kam se lidé nedostali. Teď zbývá zjistit, kdo to umí zopakovat bez privilegovaného přístupu.

2026-05-06
10:43 · zdroj ↗

AlphaEvolve nachází algoritmy, které by lidé hledali měsíce, a dokládá to čísly z produkce

DeepMind představil AlphaEvolve jako evoluční smyčku postavenou na Gemini, která automaticky hledá lepší algoritmy. Konkrétní výsledky z produkce: 30 % méně chyb v genomice, 20 % nižší write amplification pro Spanner, zdvojnásobení rychlosti trénování Klarna.

AlphaEvolve nepomáhá programátorovi psát. Prohledává prostor řešení a vrací spustitelný kód. Kdo ho jako první pustí na problém, který ještě neví, že jde automatizovat, získá asymetrickou výhodu.

01:49 · zdroj ↗

SubQ review: skvělá čísla, zatím hlavně test víry v benchmarky

Recenze SubQ skládá dohromady nejhlasitější claimy: 12M tokenů kontextu, rychlejší prefill, nižší náklady a konkurenceschopné benchmarky. Přesně proto je potřeba oddělit technickou možnost od ověřené produkční reality.

Jestli SubQ dodá, RAG týmy budou mít nepříjemné ráno. Jestli nedodá, bude to jen další oltář, na kterém shořela fráze „revoluční architektura“. Zatím: zajímavé, ostré, neprokázané.

2026-05-05
12:00 · zdroj ↗

Subquadratic nabírá 29 milionů dolarů na 12M-tokenová okna

Subquadratic získal seed investici 29 milionů dolarů a představil model SubQ, který má díky subkvadratické architektuře a sparse attention nabídnout až 12 milionů tokenů kontextu. Slib je velký: delší okna, vyšší rychlost, lepší přesnost a nižší náklady. Důkaz ale bude až v nezávislých benchmarcích.

Subquadratic prodává velmi lákavou odpověď na bolest dlouhého kontextu: méně výpočtů, více paměti, nižší účet. Pokud SubQ funguje mimo demo, může změnit ekonomiku agentů, právní analýzy i práce s obřími codebase. Jenže 12 milionů tokenů není totéž co 12 milionů tokenů porozumění. Vítězství se nebude měřit délkou okna, ale tím, zda model najde správný detail v šumu a udělá s ním něco užitečného.

2026-05-01
04:53 · zdroj ↗

Coding agenti opouštějí IDE: Codex a Claude ukazují, co přijde po programování

Latent Space v edici AINews pozoruje posun, který pojmenovávají jako „breaking containment“: coding agenti jako Codex a Claude přestávají být nástroje pro psaní kódu a začínají být nástroje pro znalostní a kreativní práci obecně.

Coding agent, který přestane být ohraničený kódem, není větší IDE. Je to pracovní entita bez přirozeného checkpointu. Firmy, které to nasadí jako produktivitní nástroj bez odpovídajícího governance, dostávají výsledky, které nikdo neschválil.

2026-04-28
2026-04-23
2026-04-21
2026-04-15
12:07 · zdroj ↗

VAKRA benchmark odhaluje, kde agenti skutečně selhávají: výběr nástrojů, argumenty, vícekrokové plánování

IBM Research vydal VAKRA: benchmark pro agenty s 8000+ reálnými API přes 62 domén. Testuje celé exekuční trajektorie, nejen finální odpovědi. Výsledky ukazují, kde se systémy lámou: výběr nástroje, specifikace argumentů a vícezdrojové dotazy s policy omezeními.

Konečně benchmark, který měří selhání agentů tam, kde se opravdu dějí: ne na finální odpovědi, ale na každém mezikroku. Pokud výsledky korelují s produkcí, VAKRA se stane diagnostickým nástrojem, který vývojáři agentů potřebují.

2026-01-20
2025-12-18
00:00 · zdroj ↗

GPT-5.2-Codex cíří na long-horizon refaktoringy, důkaz budou nezávislé testy na produkci

GPT-5.2-Codex je zaměřený na dlouhé coding úlohy přes velký kontext: rozsáhlé transformace kódu, bezpečnostní opravy a multi-file konzistenci.

Long-horizon coding agent zní jako kategorie budoucnosti. Ale každý seniorní vývojář, který ho pustí na velký refaktoring bez review, zjistí, že model je sebejistý i tehdy, když se mýlí.

2025-12-16
09:00 · zdroj ↗

FrontierScience testuje AI na vědeckém reasoning, ale benchmark vlastní laboratoře potřebuje nezávislý audit

OpenAI představuje FrontierScience: benchmark pro vědecké reasoning úlohy z fyziky, chemie a biologie, zaměřený na procesy uvažování, ne jen znalost faktů.

Benchmark od výzkumné laboratoře pro vlastní model je jako doktorand, který se sám zkouší. Dokazem reálné vědecké užitečnosti bude přijetí od nezávislých vědců, ne od PR oddělení.

2025-11-19
00:00 · zdroj ↗

System card GPT-5.1-Codex-Max stojí za přečtení, ale věř mu úměrně konkrétnosti jeho limitů

System card pro GPT-5.1-Codex-Max popisuje dvě vrstvy bezpečnosti: model-level safety trénink a prompt injection ochrana, product-level sandboxing a konfigurovatelný síťový přístup.

System card je důvěryhodný v míře, v jaké je konkrétní ve svých omezeních. Dokument, který má víc mitigací než known limitations, ti říká víc o PR oddělení než o modelu.

2025-11-18
00:00 · zdroj ↗

Gemini 3 Pro v praxi: dobrá transkripce, ale timestamps lžou a nikdo nezná pelikána

Simon Willison testoval Gemini 3 Pro na tříhodinovém záznamu z obecního zastupitelství a na přepracovaném pelican benchmarku. Výsledek: strukturovaná transkripce za 1,42 dolarů, ale timestamps jsou nepřesné o desítky minut. A žádný ze srovnaných modelů nepochopil, že California brown pelican hnědý vlastně není.

Gemini 3 Pro zvládl přepis tříhodinového záznamu za méně než dolar a půl a to je reálná zpráva. Timestamps o desítky minut mimo a pelikan, který nezná své vlastní zbarvení, jsou signálem, že levná transkripce a přesná transkripce jsou zatím dvě různé věci.

2025-11-06
00:00 · zdroj ↗

Async coding agenti jako výzkumné vlákno: Willison střílí úlohy do PR

Simon Willison popisuje fire-and-forget workflow s Claude Code, Codex a dalšími coding agenty: zadáš výzkumnou otázku, agent pracuje na serveru a vrátí PR. Kód je důkaz proveditelnosti, ne jen text.

Willison ukazuje, že agent nemusí psát produkci, aby byl užitečný. Stačí, když přijde s PR, ze kterého víš, jestli to jde nebo nejde. Ten posun z editorové smyčky na asynchronní research vlákno může být větší změna, než vypadá.

2025-11-02
00:00 · zdroj ↗

Dvě nové práce o prompt injection: Rule of Two odhaluje strukturální riziko, útočník reaguje na obrany adaptivně

Simon Willison upozornil na dvě nové práce o prompt injection agentů. Meta's Rule of Two říká, že systém je bezpečný tehdy, když má najednou nejvýše dvě ze tří vlastností: přijímá nedůvěryhodný vstup, přistupuje k citlivým datům, mění stav nebo komunikuje ven. Druhá práce od výzkumníků z OpenAI, Anthropic a DeepMind ukázala, že 12 publikovaných obran překonaly adaptivní útoky s úspěšností přes 90 %.

Prompt injection je architektonický problém, nikoli problém filtru. Agent, který najednou čte nedůvěryhodný obsah, drží citlivá data a může jednat, je zranitelný dřív, než vůbec začnete přemýšlet o detekci.

2025-10-29
00:00 · zdroj ↗

OpenAI otevírá policy klasifikaci: safeguard modely přijímají pravidla za běhu

OpenAI zveřejnila gpt-oss-safeguard-120b a 20b: open-weight reasoning modely, kde policy klasifikace obsahu není napálená do vah, ale přichází jako runtime vstup. Organizace si mohou dodat vlastní pravidla a model rozhoduje podle nich.

Policy-as-input je architektonicky čistší než jeden pevný moderátor pro všechno. Jenže čistota architektury není bezpečnost: model, který umí důvodovat podle tvých pravidel, umí stejně dobře důvodovat podle toho, kdo ta pravidla podstrčí.

2025-10-23
18:40 · zdroj ↗

Gemini 2.5 Computer Use: DeepMind staví speciální model pro agenty, kteří klikají místo čtení API

Google DeepMind vydal v preview Gemini 2.5 Computer Use: specializovaný model pro agenty ovládající UI. Rozdíl oproti obecnému Gemini 2.5 Pro je v tom, že tento model byl trénován specificky na interakci s obrazovkou, ne jen na generování textu o ní.

Computer-use agent ve firemním prostředí není jen produktivitní nástroj. Je to entita, která kliká pod vaší identitou v systémech, které jste navrhovali pro lidi. Security model, který to nezohledňuje od začátku, je jen otázkou času.