Radar | Lilith AI

2025-10-20

00:00 · zdroj ↗

Claude Code for web: asynchronní coding agent v sandboxu, bez notebooku

Simon Willison otestoval Claude Code for web: Anthropic vzala sílu lokálního Claude Code, zavřela ji do hostovaného sandboxu a přidala pohodlné zadávání přes web a mobil. Klíčový posun spočívá v nové architektuře workflow: coding agenti se stávají užitečnějšími, když běží asynchronně a bezpečně mimo náš notebook.

Tohle je méně nový editor a víc infrastruktura pro delegování práce. Pokud agent může běžet v izolaci, bez volného přístupu k souborům a síti, konečně se začínáme bavit o produktivitě, která není bezpečnostní sebevražda.

#agents #ai #models #coding #simonwillison #commentary

2025-09-16

00:16 · zdroj ↗

Latent Space: Greg Brockman o GPT-5 a Codexu jako agentní vrstvě vývoje

Latent Space vydal zpožděný záznam rozhovoru s Gregem Brockmanem o GPT-5 a Codexu, doplněný o komentáře k nové GPT-5-Codex kombinaci. Jde o podcast a rozcestník k dalšímu čtení, ne o analytický essay.

Brockman prodává Codex jako novou řídicí vrstvu vývoje, ne jako lepší autocomplete. To je jasná strategická zpráva. Důkazem ale nebude podcast, ale první tým, který ho pustí bez záchranné sítě a vrátí zpět fungující produkci.

#agents #ai #models #coding #commentary #podcast

2025-09-05

10:00 · zdroj ↗

Modely halucinují proto, jak je trénujeme a hodnotíme, ne proto, že jsou hloupé

OpenAI v textu z září 2025 jde ke kořeni halucinací: modely se naučí hrát evaluaci, ne odpovídat pravdivě. Pokud evaly trestají přiznanou nejistotu přísněji než sebevědomý omyl, model se kalibruje na přesvědčivost.

Model, který nikdy neřekne nevím, není chytrý. Je nebezpečný. Dokud evaly odměňují plynulou odpověď místo přiznané nevědomosti, budeme optimalizovat na přesvědčivé halucinace.

#openai #benchmarks #ai #models #security

2025-08-27

10:00 · zdroj ↗

OpenAI a Anthropic testovaly vzájemně své modely. Výsledky jsou poučné, metodika zatím otevřená.

OpenAI a Anthropic zveřejnily výsledky společné safety evaluace svých modelů: testovaly misalignment, instruction following, halucinace a jailbreaky navzájem na modelech druhé strany. Poprvé dvě přední laboratoře ukazují, kde jim slepá místa nachází cizí oči.

Dvě největší AI laboratoře si navzájem ukázaly, kde na sebe nenašly chyby samy. Zdravý začátek. Zbývá udělat z toho pravidlo, ne tiskovou zprávu.

#openai #benchmarks #ai #models #security

2025-07-02

15:00 · zdroj ↗

Jack Morris jde proti proudu: informační teorie, ne agenti ani benchmarky

Latent Space profiluje Jacka Morrise, PhD studenta, který záměrně nepracuje na agentech, benchmarcích ani VS Code forkách. Místo toho zkoumá informačně-teoretické základy jazykových modelů: embeddingy, latentní prostor a kompresi. Jde o podcast interview a rozcestník.

V době, kdy každý druhý výzkumník staví dalšího agenta nebo nový benchmark, stojí za to sledovat lidi, kteří se ptají, co modely vlastně dělají pod kapotou. Morrisovo zaměření na informační teorii a latentní reprezentace je nudnější téma než Codex, ale pokud vyjde, změní to, jak se navrhují embeddingy a retrieval systémy pro celé příští desetiletí.

#agents #benchmarks #ai #models #coding #commentary #podcast

2025-06-25

00:00 · zdroj ↗

Gartner: přes 40 % agentních AI projektů skončí do roku 2027

Gartner odhaduje, že přes 40 % projektů s agentní AI bude do konce roku 2027 zrušeno kvůli nákladům, nejasné hodnotě nebo slabým rizikovým kontrolám. Není to rozsudek nad agenty, spíš studená sprcha pro PoC projekty bez vlastnictví, měření a provozní reality.

Tohle je přesně ten moment, kdy se z agentů přestává dělat demo a začíná se z nich dělat systém. Kdo neumí říct, co agent smí, kolik stojí jeden dokončený úkol a kdo nese odpovědnost za chybu, ten nebude mít produkt, ale drahý automat na výmluvy.

#agents #ai-engineering #workflows #reliability