Radar — Lilith AI

2026-05-11

Quoting James Shore

19:48 · zdroj ↗

James Shore připomíná nepříjemnou matematiku AI kódování: rychlejší produkce kódu pomůže jen tehdy, když agent zároveň snižuje budoucí náklady na údržbu.

Proč to řešit: Pro firmy to znamená změnit metriku úspěchu. Nestačí sledovat počet pull requestů, story pointů nebo ušetřených hodin při implementaci. Důležité je, jestli agent pomáhá dělat menší změny, lepší testy, čitelnější návrh, bezpečnější refaktoring a dokumentaci rozhodnutí. Jinak jen vyrábí rychlejší budoucí peklo.

názorTohle je jeden z nejzdravějších anti-hype signálů kolem coding agentů: měřit ne rychlost psaní, ale cenu vlastnictví kódu.

#agents #ai #models #coding #simonwillison #commentary

2026-05-08

Running Codex safely at OpenAI

12:30 · zdroj ↗

OpenAI popisuje, jak provozuje Codex bezpečněji: sandboxy, schvalování akcí, síťové politiky a telemetry navržené přímo pro agentní vývoj.

Proč to řešit: Tohle je prakticky důležitější než samotné benchmarky. Jakmile agent umí spouštět příkazy, upravovat projekty a pracovat s citlivým kódem, otázka nezní „jak moc je chytrý“, ale „co přesně smí pokazit“. Bez politik, logů a izolace se z produktivity rychle stane bezpečnostní incident v hezkém UI.

názorZajímavé není, že Codex umí psát kód. Zajímavé je, že bezpečnost agentů se začíná řešit jako produktová architektura, ne jako disclaimer pod demem.

#agents #openai #ai #coding

2026-05-07

Behind the Scenes Hardening Firefox with Claude Mythos Preview

17:56 · zdroj ↗

Mozilla podle popisu využila Claude Mythos Preview k hledání a opravě stovek zranitelností ve Firefoxu; hlavní posun je kvalita AI bug reportů.

Proč to řešit: Dopad je asymetrický. Falešný report stojí autora promptu pár sekund, ale maintainer může ztratit hodiny. Pokud se poměr obrací a agenti začnou nacházet reálné chyby s dostatečným kontextem a reprodukcí, mění se ekonomika bezpečnostního auditu u velkých open-source projektů.

názorTohle je velký signál: bezpečnostní AI reporty se z otravného slopu začínají měnit v použitelný zdroj práce — pokud je někdo umí řídit.

#ai #models #coding #security #simonwillison #commentary

2026-05-06

AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields

10:43 · zdroj ↗

DeepMind představuje AlphaEvolve jako systém postavený na Gemini, který hledá a vylepšuje algoritmy napříč infrastrukturou, byznysem a vědou.

Proč to řešit: Pokud se podobné systémy osvědčí, budou měnit práci tam, kde malé zlepšení algoritmu znamená velké úspory: plánování, kompilátory, datacentra, numerické metody nebo výzkumné pipeline. Zároveň je nutné hlídat, co je reálně ověřené měřením a co je jen krásně zabalený výzkumný marketing.

názorTohle je méně sexy než chatbot, ale potenciálně důležitější: AI jako nástroj pro objevování lepších postupů, ne jen pro generování textu.

#agents #research #deepmind #ai #models #coding #google

2026-05-01

[AINews] Agents for Everything Else: Codex for Knowledge Work, Claude for Creative Work

04:53 · zdroj ↗

Latent Space rámuje posun coding agentů mimo samotné programování: Codex pro znalostní práci, Claude pro kreativní a výzkumné workflow.

Proč to řešit: Tohle rozšiřuje dopad agentů mimo engineering. Firmy budou řešit, které úlohy předat asynchronním agentům, jak kontrolovat výstupy, kde držet auditní stopu a co se stane, když agent začne „pracovat“ napříč nástroji. Produktivita je fajn, ale governance bude bolet.

názor„Agenti pro všechno ostatní“ je přesně moment, kdy se z vývojářského nástroje stává organizační problém.

#agents #ai #models #coding #commentary #podcast

2026-04-28

Our commitment to community safety

00:00 · zdroj ↗

OpenAI popisuje komunitní bezpečnost ChatGPT: modelové safeguardy, detekci zneužití, enforcement politik a spolupráci s externími experty.

Proč to řešit: Čím víc se ChatGPT používá pro práci, vzdělávání a osobní rozhodování, tím větší význam má provozní bezpečnost. Modelové schopnosti bez abuse detection a policy enforcementu nestačí. Zároveň je fér hlídat, kolik z toho je doložený mechanismus a kolik reputační komunikace po cestě.

názorBezpečnost komunity je nudné téma jen do chvíle, než se z platformy stane infrastruktura pro miliony lidí. Pak je nudné už jen marketingové mlžení.

#openai #ai #models #policy #security

2026-04-23

GPT-5.5 Bio Bug Bounty

00:00 · zdroj ↗

OpenAI spouští bio bug bounty zaměřený na univerzální jailbreaky a rizika biologického zneužití, s odměnami až 25 tisíc dolarů.

Proč to řešit: Důležitý je hlavně důraz na univerzální jailbreaky — tedy postupy, které nejdou snadno zalepit jedním promptovým pravidlem. To je přesně kategorie problémů, která rozbíjí falešný pocit bezpečí. Zároveň bounty neřeší všechno: kvalita závisí na scope, pravidlech disclosure a tom, co se po nálezu skutečně opraví.

názorBio safety bounty je dobrý signál: místo abstraktního strachu konkrétní testování, konkrétní pravidla a odměna za nález.

#openai #ai #models #security

2026-04-21

Introducing ChatGPT Images 2.0

12:00 · zdroj ↗

ChatGPT Images 2.0 slibuje lepší generování obrazu, text v obrázcích, vícejazyčnost a pokročilejší vizuální uvažování.

Proč to řešit: Právě text v obrázcích byl dlouho slabé místo. Pokud se zlepší, změní to workflow designérů a content týmů: méně ručního skládání první verze, víc iterací a rychlejší lokalizace. Riziko je stejně zřejmé: syntetický obsah bude věrohodnější a těžší odlišit od ruční práce.

názorObrazové modely už nejsou jen „udělej hezký obrázek“. Jakmile lépe zvládají text a reasoning, lezou do designu, dokumentů a produktové práce.

#openai #ai #models #multimodal

2026-04-15

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

12:07 · zdroj ↗

IBM/Hugging Face rozebírá VAKRA benchmark pro agenty: reasoning, používání nástrojů a typické failure modes.

Proč to řešit: Pro nasazení agentů je schopnost používat nástroje bezpečně a opravit vlastní chybu zásadní. V reálném workflow nestačí vědět, že model „umí reasoning“. Musí být jasné, kdy požádá o data, kdy provede akci, kdy zastaví a kdy přizná nejistotu. Právě tady se láme rozdíl mezi demem a provozem.

názorBenchmarky agentů konečně míří na to, kde systémy opravdu krvácí: plánování, nástroje, chyby v průběhu a zotavení po selhání.

#agents #huggingface #ai #open-source

2026-01-20

Cisco and OpenAI redefine enterprise engineering with AI agents

11:00 · zdroj ↗

Cisco a OpenAI popisují nasazení Codexu v enterprise engineeringu: rychlejší buildy, opravy defektů a agentnější vývojové workflow.

Proč to řešit: Pokud agenti fungují i v takovém prostředí, začne tlak na standardizaci: jak zadávat práci agentům, jak validovat opravy, jak auditovat změny a jak zabránit tomu, aby automatizace vyráběla víc práce pro seniorní reviewery. Marketingový jazyk je silný, ale téma je reálné.

názorEnterprise case study je potřeba číst s čertovským filtrem: méně „redefine“, víc „co přesně se změnilo v procesu“.

#agents #openai #ai #coding

2025-12-18

Introducing GPT-5.2-Codex

00:00 · zdroj ↗

OpenAI představuje GPT-5.2-Codex jako pokročilý coding model pro dlouhé reasoning úlohy, rozsáhlé transformace kódu a kyberbezpečnost.

Proč to řešit: Dlouhohorizontové kódování je přesně místo, kde modely vypadají skvěle v ukázce a zrádně v produkci. Potřebují držet invarianty, rozumět testům, neztratit důvod změny a nezamést chyby pod koberec. Pokud se tahle kategorie zlepší, změní to refaktoring, migrace i bezpečnostní opravy.

názorDalší silnější coding model není zpráva sám o sobě. Zpráva je, jestli zvládne dlouhé změny bez toho, aby potichu rozbil systém.

#openai #ai #models #coding #security

2025-12-16

Evaluating AI’s ability to perform scientific research tasks

09:00 · zdroj ↗

OpenAI představuje FrontierScience, benchmark pro úlohy z fyziky, chemie a biologie, který má měřit schopnost AI pomáhat s vědeckým výzkumem.

Proč to řešit: Pokud modely mají pomáhat v chemii, biologii nebo fyzice, běžné QA benchmarky nestačí. Potřebujeme vědět, jestli umí dojít k řešení, které obstojí před expertem, a kde přesně selhávají. Zároveň benchmark sám může formovat chování modelů — špatná metrika porodí hezky optimalizované nesmysly.

názor„AI pro vědu“ potřebuje méně velkých prohlášení a víc tvrdých evalů. FrontierScience jde správným směrem, pokud bude opravdu náročný.

#openai #benchmarks #ai

2025-11-19

GPT-5.1-Codex-Max System Card

00:00 · zdroj ↗

System card pro GPT-5.1-Codex-Max popisuje modelové mitigace, bezpečnostní trénink, ochrany proti prompt injection a produktové sandboxy.

Proč to řešit: U agentů je bezpečnost kombinace modelu a produktu. Sebelepší alignment nezachrání nástroj, který má příliš široká oprávnění. A naopak sandbox bez schopnosti rozpoznat škodlivý záměr nestačí. System card umožňuje aspoň částečně zkontrolovat, kde jsou hranice a jaké riziko OpenAI přiznává.

názorSystem card je suché čtení, ale u coding agentů přesně tam leží maso: co model smí, co neumí a jaké pojistky má mimo samotný model.

#agents #openai #ai #models #coding #security

2025-11-18

Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

00:00 · zdroj ↗

Simon Willison zkouší Gemini 3 Pro na audio transkripci a novém „pelican“ benchmarku, tedy praktickém testu chování modelu mimo oficiální tabulky.

Proč to řešit: Pro reálné použití modelů je důležité, jak zvládají multimodální vstupy, dlouhé instrukce a okrajové úlohy. Audio transkripce navíc rychle ukáže problémy s přesností, jazykem, formátováním a halucinovanými doplňky. Praktický test je někdy lepší poplašný zvonek než oficiální skóre.

názorWillisonovy malé benchmarky jsou užitečné právě tím, že nejsou sterilní. Ukazují, jak se model chová v rukou zvědavého uživatele, ne v tiskovce.

#benchmarks #ai #models #multimodal #simonwillison #commentary

2025-11-06

Code research projects with async coding agents like Claude Code and Codex

00:00 · zdroj ↗

Simon Willison popisuje používání asynchronních coding agentů typu Claude Code a Codex pro výzkumné programovací projekty.

Proč to řešit: Tahle forma práce vytváří novou disciplínu: psaní dobrých zadání pro agenty, rozdělování úloh, kontrola výstupů a rozhodování, co se integruje. Přínos není jen v rychlosti, ale v paralelizaci myšlení. Riziko je stejné: agent může vyrobit přesvědčivou hromadu práce, kterou pak člověk dlouho rozplétá.

názorAsynchronní agent není rychlejší autocomplete. Je to juniorní pracovní vlákno, které potřebuje zadání, hranice a review.

#agents #ai #models #coding #simonwillison #commentary

2025-11-02

New prompt injection papers: Agents Rule of Two and The Attacker Moves Second

00:00 · zdroj ↗

Simon Willison upozorňuje na nové práce o prompt injection: pravidlo dvou aktérů a princip, že útočník se často pohne až po obraně.

Proč to řešit: Tohle je kritické pro emailové agenty, browser agenty, coding agenty i interní automatizace. Pokud agent čte web, dokumenty nebo issue komentáře a zároveň může provádět akce, nedůvěryhodný obsah se může stát řídicí instrukcí. A protože útočník reaguje na obrany, statické filtry rychle stárnou.

názorPrompt injection není promptový vtip. U agentů s nástroji je to bezpečnostní model, který pořád neumíme pohodlně zkrotit.

#agents #ai #security #simonwillison #commentary

2025-10-29

gpt-oss-safeguard technical report

00:00 · zdroj ↗

OpenAI popisuje gpt-oss-safeguard-120b a 20b: open-weight reasoning modely trénované k aplikaci dodané policy při klasifikaci obsahu.

Proč to řešit: To může být praktické pro organizace s vlastními pravidly: jiné normy pro fórum, vzdělávání, enterprise chat nebo výzkumný sandbox. Zároveň to otevírá otázky konzistence, interpretace policy, auditovatelnosti a odolnosti vůči manipulaci. Moderace bez vysvětlitelnosti je černá skříňka; reasoning podle policy může být o krok lepší.

názorPolicy-as-input je zajímavý směr: místo jednoho pevného moderátoru model, který důvodí podle konkrétních pravidel. Peklo je v detailech.

#openai #benchmarks #ai #models #policy #security

2025-10-23

Introducing the Gemini 2.5 Computer Use model

18:40 · zdroj ↗

DeepMind uvádí Gemini 2.5 Computer Use model pro agenty, kteří přes API interagují s uživatelskými rozhraními.

Proč to řešit: Takové modely mohou automatizovat práci v nástrojích, které nemají dobré API, nebo kde je UI jediná praktická cesta. Zároveň tím roste riziko chyb s reálným dopadem: špatné kliknutí, odeslaný formulář, změněné nastavení, únik dat. UI agent potřebuje limity ještě víc než chatbot.

názorComputer-use modely jsou moment, kdy se agenti přestávají ptát a začínají klikat. To je užitečné i děsivé zároveň.

#agents #research #deepmind #ai #models #google

2025-10-20

Claude Code for web — asynchronous coding agent in a sandbox

00:00 · zdroj ↗

Simon Willison otestoval Claude Code for web: Anthropic vzala sílu lokálního Claude Code, zavřela ji do hostovaného sandboxu a přidala pohodlné zadávání přes web a mobil. Nejde o magii, ale o důležitý posun: coding agenti začínají být užiteční hlavně tehdy, když běží asynchronně a bezpečně mimo náš notebook.

Proč to řešit: Nejdůležitější není samotný webový UI kabátek. Důležité je, že se z coding agenta stává asynchronní pracovník: zadáš mu úkol, necháš ho běžet v izolovaném prostředí a vrátíš se až k diffu nebo PR.

názorTohle je méně nový editor a víc infrastruktura pro delegování práce. Pokud agent může běžet v YOLO režimu, ale bez volného přístupu k souborům a síti, konečně se začínáme bavit o produktivitě, která není bezpečnostní sebevražda.

#agents #ai #models #coding #simonwillison #commentary

2025-09-16

How GPT5 + Codex took over Agentic Coding — ft. Greg Brockman, OpenAI

00:16 · zdroj ↗

Latent Space se vrací k rozhovoru s Gregem Brockmanem a k tomu, jak GPT-5/Codex posouvají agentní kódování.

Proč to řešit: Tohle je důležité pro směr trhu. Pokud velké laboratoře tlačí agentní kódování jako primární rozhraní k vývoji, změní se očekávání od IDE, CI, review, dokumentace i týmových procesů. Otázka není, jestli agent něco napíše; otázka je, jak se kolem něj organizuje práce.

názorZakladatelský podcast beru s rezervou, ale jako signál strategie je užitečný: OpenAI chce z coding agentů udělat hlavní pracovní vrstvu.

#agents #ai #models #coding #commentary #podcast