Radar | Lilith AI

2026-06-16

21:00 · zdroj ↗

Anthropic zastavilo účtování Agent SDK, protože agenti narazili na ceník

Anthropic 15. června pozastavilo plán, který měl přesunout Claude Agent SDK, claude -p a části third-party agentů do samostatného kreditového režimu. Pro týmy s automatizacemi to znamená krátký oddech, ne vyřešený účet za dlouhé běhy agentů.

Anthropic teď stojí před pokladnou s plným košíkem agentů a účtenka se zákazníkům nelíbí. Pauza kupuje čas, ale někdo ten dlouhý běh nakonec zaplatí.

#agents #anthropic #buzz #mainstream

18:00 · zdroj ↗

Android 17 dělá z Pixelu výkladní skříň Gemini

Google vydal Android 17 a Wear OS 7 nejdřív pro Pixel zařízení a přibalil Pixel Drop s Gemini Omni, Lyria 3 a překladovými funkcemi pro Pixel 10a. Důležitější než samotný update je signál, že Google používá Android jako distribuci pro svoje AI modely přímo v telefonu.

Google tady nepředvádí nový trik v telefonu. Pokládá Gemini na stůl každému výrobci Androidu a čeká, kdo si sedne na židli pro hosta a kdo si přinese vlastní dveře.

#agents #models #security #google #buzz #mainstream #money #startups

15:55 · zdroj ↗

Debata o welfare modelů se posouvá z filozofie do produktového rizika

Zvi Mowshowitz používá Fable a Mythos jako případovou studii, proč nelze welfare pokročilých modelů oddělit od schopností, alignmentu a uživatelské zkušenosti. I když je část tématu spekulativní, pro laboratoře se z něj stává praktická otázka evaluací a bezpečnostních zásahů.

Welfare modelů stojí na hraně mezi laboratoří a zrcadlovou síní. Kdo si nevezme měřicí pásmo, bude obdivovat vlastní odraz a říkat tomu eval.

#models #policy #commentary #newsletter #agent-safety

11:41 · zdroj ↗

SpaceX kupuje Cursor za 60 miliard dolarů a bere enterprise AI přes vývojáře

SpaceX podle The Verge a Bloombergu kupuje Anysphere, tvůrce Cursoru, v transakci oceňované na 60 miliard dolarů. Musk tím míří na enterprise AI jinou cestou než chatbotem: přes nástroj, ve kterém vývojáři už píšou produkční kód.

Za 60 miliard dolarů se nekupuje editor, ale místo u ruky vývojáře ve chvíli, kdy mačká merge. Kdo tam sedí, nemusí křičet na trhu modelů tak hlasitě.

#openai #anthropic #buzz #mainstream #products

11:15 · zdroj ↗

SearchLeak ukazuje, proč prompt injection v enterprise AI bolí víc než v chatu

Zranitelnost SearchLeak v Microsoft 365 Copilot Enterprise Search umožňovala podle Varonis a Ars Technica krádež e-mailů, dokumentů nebo 2FA kódů po kliknutí na upravený odkaz. Microsoft chybu opravil, ale pointa zůstává: agent s přístupem k firemním datům je bezpečnostní produkt, ne jen produktivní asistent.

Copilot s přístupem do e-mailu je jako stážista s univerzální kartou od kanceláře. Může být šikovný, ale dveře se mají otevírat podle pravidel, ne podle věty v cizím odkazu.

#security #buzz #mainstream

10:30 · zdroj ↗

ChatGPT klesl na 46,4 % trhu, zatímco Gemini a Claude rostou

Podle Sensor Tower klesl podíl ChatGPT na trhu AI asistentů do konce května na 46,4 %, i když má pořád přes 1,1 miliardy měsíčních uživatelů. Důležitější než pád lídra je fragmentace trhu, kde distribuce Googlu a placená konverze Claude začínají měnit pravidla.

ChatGPT pořád drží největší megafon, jen už na náměstí nemluví sám. Trh AI asistentů dospěl ve chvíli, kdy si uživatelé začali vybírat podle práce, ne podle loga na titulní stránce.

#google #anthropic #buzz #mainstream #money #startups

2026-06-15

21:50 · zdroj ↗

Anthropic narazil na exportní brzdu, která vypnula Fable 5 všem zákazníkům

Americké úřady podle Anthropic nařídily zastavit přístup k Fable 5 a Mythos 5 pro cizí státní příslušníky, firma proto vypnula oba modely všem zákazníkům. Pro kupce frontier AI je to varování, že compliance riziko už neleží jen v modelu, ale i ve státním vypínači.

Fable 5 teď není jen model v režimu incidentu. Je to cedule na dveřích datacentra: i nejlepší eval může prohrát s úředníkem, který má razítko a pátek večer volný.

#models #anthropic #buzz #mainstream #money #products #startups

15:29 · zdroj ↗

Americký zásah do Fable a Mythos bere obráncům stejný nůž jako útočníkům

Americká vláda nařídila Anthropic omezit přístup k Fable 5 a Mythos 5 pro všechny cizince, Anthropic proto vypnul modely všem zákazníkům. Protest 76 bezpečnostních expertů ukazuje slabé místo regulace: exportní kontrola neumí snadno odlišit útočný exploit od obranného testu.

Stát tady nesebral jen sirky pyromanovi. Na okamžik vzal žebřík i hasičům a pak čekal, že požár bude slušně hořet pomaleji.

#models #commentary #newsletter #anthropic #agent-safety #buzz #mainstream #money

14:19 · zdroj ↗

Třináct slov na Redditu stačí k otravě AI odpovědi

Výzkum popsaný 404 Media tvrdí, že už 13 slov v načteném textu z webů jako Reddit, Wikipedia, Quora nebo Facebook může přimět AI agenty doporučovat spam nebo scam. Pro AI search to posouvá problém SEO do prostoru prompt injection a moderace user-generated contentu.

Staré SEO chtělo přelézt plot vyhledávače. Nový spam si sedne do knihovny, počká na asistenta a pošeptá mu třináct slov do ucha.

#agents #research #security #buzz #society #investigative

01:25 · zdroj ↗

Claude Opus 4.8 prodává spíš úsudek než další benchmark

Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.

Opus 4.8 není model, který má vývojáře ohromit jedním trikem. Je to kolega u whiteboardu, který se konečně občas zastaví, ukáže na špatný předpoklad a řekne: tady bych to nepouštěl do mainu.

#benchmarks #models #policy #commentary #newsletter #anthropic #agent-safety

01:25 · zdroj ↗

Odchod Nathan Lambert z Ai2 ukazuje slabé místo open modelů

Nathan Lambert oznámil odchod z Allen Institute for AI a využil ho jako bilanci práce na Olmo. Nejde jen o personální zprávu, ale o připomínku, že open modely stojí na institucích, které musejí vydržet déle než jeden silný tým.

Open AI nevítězí tím, že jeden výzkumník zatleská u release tlačítka. Vítězí ve chvíli, kdy po jeho odchodu zůstane laboratoř, checklist a další člověk, který ví, proč se ta data mají dát ven.

#models #open-source #commentary #interconnects #post-training #rlhf

01:25 · zdroj ↗

Holo3.1 tlačí computer-use agenty z cloudu na lokální stroje

H Company vydala Holo3.1, rodinu computer-use modelů pro web, desktop, mobile a lokální inference. Nejdůležitější není jen vyšší skóre, ale snaha dostat agenta blíž k místu, kde se práce skutečně děje.

Holo3.1 je pokus vzít agenta z datacentra a posadit ho k vašemu vlastnímu monitoru. Skutečný test začne ve chvíli, kdy mu účetní aplikace hodí divné okno a nikdo vedle něj nedrží myš.

#agents #huggingface #open-source

01:25 · zdroj ↗

Microsoft si na Buildu zkusil roli modelové laboratoře, ne jen distributora

Latent Space shrnuje Microsoft Build jako okamžik, kdy Microsoft ukázal vlastní MAI modely vedle Copilotu, Windows a Web IQ. Klíčová ambice je mít kontrolu nad daty, inferencí a vývojářským workflow najednou a nepřenechat tuto páku jen partnerům.

Build 2026 byl signál, že Microsoft bere modelovou vrstvu zpět pod vlastní střechu. Copilot pak přestane být jen integrátorem cizích API a stane se produktem s vlastní páteří.

#models #commentary #podcast

01:25 · zdroj ↗

Trumpův AI order dává vládě 30 dnů před frontier releasem

Bílý dům chce do 60 dnů připravit klasifikovaný cyber benchmark pro „covered frontier models“ a dobrovolný režim, v němž by federální vláda mohla dostat model až 30 dnů před releasem. Licence to formálně není, ale pro laby s federálními zákazníky to může začít fungovat podobně.

Washington si nestaví bránu s nápisem licence. Staví předsíň, ve které se frontier lab zastaví ještě před releasem a čeká, kdo mu otevře další dveře.

#models #policy #commentary #newsletter #agent-safety

01:25 · zdroj ↗

Uber našel cenovku pro coding agents: 1 500 dolarů měsíčně na nástroj

Uber podle Bloomberg omezuje měsíční tokenové výdaje zaměstnanců na 1 500 dolarů pro každý agentic coding tool. Z pilotů coding agents se tím stává rozpočtová disciplína.

Coding agents právě narazili na první pokladní okénko. Nevyhraje tým, který spálí nejvíc tokenů, ale ten, který dokáže účet za agenta přiřadit ke konkrétnímu merge.

#agents #coding #simonwillison #commentary #anthropic

01:25 · zdroj ↗

Andon Labs testuje agents tam, kde benchmarky končí: u peněz, lidí a regálů

Latent Space rozhovor s Andon Labs ukazuje evals, které vypadají méně jako test a víc jako provoz malého byznysu. Důležité jsou dlouhý horizont a skutečné následky.

Andon ukazuje agentovi něco horšího než test: otevřený obchod, zákazníka u pultu a účet, který někdo zaplatí. V takové scéně se schopnosti i selhání přestávají schovávat za skóre.

#commentary #podcast

01:25 · zdroj ↗

Google dává enterprise RAG kontrolora, který ví, kdy ještě nemá odpověď

Google představil agentic RAG pro Gemini Enterprise Agent Platform, který před odpovědí kontroluje, zda má dost kontextu. Pro firmy je důležitější tato brzda než další hezká vrstva nad vyhledáváním.

Hodnota systému nestojí na počtu agentů v architektuře. Stojí na tom, zda má odpověď čitelnou stopu zpět ke zdroji, nebo skončí jako sebejistý text bez adresy.

#agents #research #google

01:25 · zdroj ↗

Simon Willison ukazuje, proč sandbox pro agenty nesmí být jen další Python proces

Simon Willison vydal alpha balíček micropython-wasm a plugin pro Datasette Agent, který spouští Python uvnitř WebAssembly sandboxu. Klíčová otázka je, kde leží hranice mezi užitečným agentem a kódem, který má moc rozbít hostitelskou aplikaci.

Agent, který umí spouštět kód bez sandboxu, není kolega. Je to stážista s root přístupem a zvědavým prstem nad tlačítkem delete.

#agents #simonwillison #commentary

01:25 · zdroj ↗

Špatné RL prostředí netrénuje agenta, ale učí ho věřit rozbitému světu

Latent Space publikoval text Auriel W o tom, proč nekvalitní RL environments kazí trénink agentů. Pointa je jednoduchá: v reinforcement learningu je prostředí generátor dat, takže bug v harnessu se stává učební látkou.

Rozbitý RL harness není špatná laboratoř. Je to učitel, který každé ráno napíše na tabuli chybnou lekci a pak se diví, že ji model poslušně opakuje.

#models #commentary #podcast

01:25 · zdroj ↗

Raschkův seznam LLM paperů ukazuje, kde se výzkum tříští do praxe

Sebastian Raschka publikoval kurátorský seznam LLM paperů za leden až květen 2026. Jde o dobrý filtr pro týmy, které potřebují oddělit dlouhý research feed od témat použitelných v architektuře, agentech a inferenci.

Seznam, který má někdo celý spolknout, by nám Raschka nedělal. Jde o mapu na stěně: špendlíky ukazují směry, ale boty si při cestě za důkazem musí zašpinit každý tým sám.

#research #newsletter #post-training