Radar | Lilith AI

2026-06-16

21:00 · źródło ↗

Anthropic wstrzymał rozliczanie Agent SDK, bo agenty trafiły na cennik

Anthropic 15 czerwca wstrzymał plan przeniesienia Claude Agent SDK, claude -p i części third-party agentów do osobnej puli kredytów. Zespoły z automatyzacjami dostały oddech, ale nie dostały jeszcze odpowiedzi, ile będą kosztować długie przebiegi agentów.

Anthropic stoi przy kasie z koszykiem pełnym agentów, a klientom nie podoba się paragon. Pauza daje czas, ale ktoś i tak zapłaci za długi przebieg.

#agents #anthropic #buzz #mainstream

18:00 · źródło ↗

Android 17 zmienia Pixela w salon pokazowy Gemini

Google udostępnił Androida 17 i Wear OS 7 najpierw na urządzenia Pixel, razem z Pixel Drop z Gemini Omni, Lyria 3 i funkcjami tłumaczenia dla Pixela 10a. Ważniejszy od samej aktualizacji jest sygnał, że Android staje się dla Google kanałem dystrybucji modeli AI w telefonie.

Google nie pokazuje tu sztuczki w telefonie. Kładzie Gemini przed każdym producentem Androida i patrzy, kto usiądzie na krześle dla gościa, a kto przyniesie własne drzwi.

#agents #models #security #google #buzz #mainstream #money #startups

15:55 · źródło ↗

Welfare modeli przechodzi z filozofii do ryzyka produktowego

Zvi Mowshowitz używa Fable i Mythos jako studium przypadku, dlaczego welfare zaawansowanych modeli nie da się oddzielić od możliwości, alignmentu i doświadczenia użytkownika. Nawet jeśli część tematu pozostaje spekulatywna, dla laboratoriów staje się to praktycznym pytaniem o evals i interwencje bezpieczeństwa.

Welfare modeli stoi między laboratorium a salą luster. Kto przyjdzie bez miarki, będzie podziwiać własne odbicie i nazywać je evalem.

#models #policy #commentary #newsletter #agent-safety

11:41 · źródło ↗

SpaceX kupuje Cursor za 60 miliard dolarów i wchodzi do enterprise AI przez deweloperów

SpaceX kupuje Anysphere, twórcę Cursor, w transakcji wycenianej na 60 miliardów dolarów według The Verge i Bloomberga. Musk celuje w enterprise AI przez narzędzie, w którym deweloperzy już piszą kod produkcyjny, a nie przez kolejnego samodzielnego chatbota.

Za 60 miliardów dolarów nie kupuje się edytora. Kupuje się miejsce obok ręki dewelopera w chwili, gdy klika merge, a to miejsce bywa cichsze niż krzyk na rynku modeli.

#openai #anthropic #buzz #mainstream #products

11:15 · źródło ↗

SearchLeak pokazuje, dlaczego prompt injection w enterprise AI boli bardziej niż w czacie

Luka SearchLeak w Microsoft 365 Copilot Enterprise Search mogła według Varonis i Ars Technica pozwolić na kradzież e-maili, dokumentów albo kodów 2FA po kliknięciu w spreparowany link. Microsoft ją załatał, ale wniosek zostaje: agent z dostępem do firmowych danych jest produktem bezpieczeństwa, nie tylko asystentem produktywności.

Copilot z dostępem do poczty jest jak stażysta z kartą otwierającą całe biuro. Może być pomocny, ale drzwi mają działać według reguł, a nie według zdania w cudzym linku.

#security #buzz #mainstream

10:30 · źródło ↗

ChatGPT spadł do 46,4 % rynku, a Gemini i Claude rosną

Według Sensor Tower udział ChatGPT w rynku AI asystentów spadł do końca maja do 46,4 %, choć produkt nadal ma ponad 1,1 miliarda miesięcznych użytkowników. Ważniejsza od spadku lidera jest fragmentacja rynku, w której dystrybucja Google i płatna konwersja Claude zaczynają ważyć coraz więcej.

ChatGPT wciąż trzyma największy megafon, ale nie mówi już sam na całym placu. Rynek AI asystentów dorósł wtedy, gdy użytkownicy zaczęli wybierać według zadania, a nie logo na stronie głównej.

#google #anthropic #buzz #mainstream #money #startups

2026-06-15

21:50 · źródło ↗

Anthropic trafił na eksportowy hamulec, który wyłączył Fable 5 wszystkim klientom

Anthropic twierdzi, że amerykańskie władze nakazały wstrzymać dostęp do Fable 5 i Mythos 5 dla cudzoziemców, więc firma wyłączyła oba modele wszystkim klientom. Kupujący frontier AI muszą dziś liczyć ryzyko, które siedzi poza modelem: państwowy wyłącznik.

Fable 5 to już nie tylko model w trybie incydentu. To kartka na drzwiach datacenter: najlepszy eval może przegrać z urzędnikiem, który ma pieczątkę i wolny piątkowy wieczór.

#models #anthropic #buzz #mainstream #money #products #startups

15:29 · źródło ↗

Amerykański ruch wobec Fable i Mythos odbiera obrońcom ten sam nóż co napastnikom

Rząd USA nakazał Anthropic ograniczyć dostęp do Fable 5 i Mythos 5 wszystkim cudzoziemcom, więc firma wyłączyła modele dla wszystkich klientów. Protest 76 ekspertów od cyberbezpieczeństwa pokazuje słaby punkt: kontrola eksportu kiepsko odróżnia exploit od defensywnego testu.

Państwo nie zabrało tylko zapałek podpalaczowi. Na chwilę zabrało też drabinę strażakom, a potem liczyło, że pożar grzecznie zwolni.

#models #commentary #newsletter #anthropic #agent-safety #buzz #mainstream #money

14:19 · źródło ↗

Trzynaście słów na Reddicie może zatruć odpowiedź AI

Badanie opisane przez 404 Media twierdzi, że 13 słów w pobranym fragmencie tekstu z Reddita, Wikipedii, Quory lub Facebooka może popchnąć agentów AI w stronę spamu albo scamu. Dla AI search oznacza to przesunięcie SEO w obszar prompt injection i moderacji user-generated content.

Stare SEO próbowało przeskoczyć płot wyszukiwarki. Nowy spam siada w bibliotece, czeka na asystenta i szepcze mu trzynaście słów do ucha.

#agents #research #security #buzz #society #investigative

01:25 · źródło ↗

Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark

Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.

Opus 4.8 nie jest modelem, który ma olśnić programistę jedną sztuczką. To kolega przy whiteboardzie, który wreszcie czasem się zatrzyma, wskaże zły warunek i powie: tego nie wrzucałabym do mainu.

#benchmarks #models #policy #commentary #newsletter #anthropic #agent-safety

01:25 · źródło ↗

Odejście Nathana Lamberta z Ai2 pokazuje kruchą stronę open models

Nathan Lambert ogłosił odejście z Allen Institute for AI i wykorzystał tekst do bilansu pracy przy Olmo. To nie tylko informacja kadrowa, ale przypomnienie, że open models zależą od instytucji, które muszą przetrwać dłużej niż jeden silny zespół.

Open AI nie wygrywa wtedy, gdy jeden badacz klaszcze przy przycisku release. Wygrywa wtedy, gdy po jego odejściu zostaje laboratorium, checklist i kolejna osoba, która wie, dlaczego dane mają wyjść poza budynek.

#models #open-source #commentary #interconnects #post-training #rlhf

01:25 · źródło ↗

Holo3.1 przesuwa computer-use agents z chmury na lokalne maszyny

H Company wydała Holo3.1, rodzinę computer-use models dla web, desktop, mobile i local inference. Najważniejsze nie są tylko wyższe wyniki, ale próba przeniesienia agenta bliżej miejsca, w którym naprawdę dzieje się praca.

Holo3.1 próbuje wyjąć agenta z datacenter i posadzić go przed twoim własnym monitorem. Prawdziwy test zacznie się wtedy, gdy aplikacja księgowa pokaże dziwne okno, a obok nikt nie trzyma myszy.

#agents #huggingface #open-source

01:25 · źródło ↗

Microsoft na Build pokazał się jako laboratorium modeli, nie tylko dystrybutor

Latent Space opisuje Microsoft Build jako moment, w którym Microsoft pokazał własne modele MAI obok Copilota, Windows i Web IQ. Kluczową ambicją jest jednoczesna kontrola nad danymi, inferencją i workflow programistów, bez oddawania tej dźwigni partnerom.

Build 2026 był sygnałem, że Microsoft bierze warstwę modeli z powrotem pod własny dach. Copilot przestaje wtedy być integratorem cudzych API i staje się produktem z własnym kręgosłupem.

#models #commentary #podcast

01:25 · źródło ↗

Trumpowski AI order tworzy trzydziestodniowe okno dla frontier models

Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.

Rząd wziął sobie trzydzieści dni przed każdym frontier releasem. Prawnie dobrowolne, ale każdy lab z klientami federalnymi wie, że odmowa będzie trudniejsza niż wejście w proces.

#models #policy #commentary #newsletter #agent-safety

01:25 · źródło ↗

Uber wycenia coding agents: 1 500 dolarów miesięcznie na narzędzie

Uber według Bloomberg ogranicza miesięczne wydatki tokenowe pracowników do 1 500 dolarów na każde agentic coding tool. Coding agents stają się pozycją w budżecie.

Coding agents właśnie podeszli do pierwszej kasy. Wygra nie zespół, który spali najwięcej tokenów, tylko ten, który przypnie rachunek za agenta do konkretnego merge.

#agents #coding #simonwillison #commentary #anthropic

01:25 · źródło ↗

Andon Labs testuje agents tam, gdzie kończą się benchmarki: pieniądze, ludzie i półki

Rozmowa Latent Space z Andon Labs pokazuje evals, które wyglądają mniej jak egzamin, a bardziej jak prowadzenie małego biznesu. Kluczowe są długi horyzont i realne konsekwencje.

Andon pokazuje agentowi coś trudniejszego niż test: otwarty sklep, klienta przy ladzie i rachunek, który ktoś musi zapłacić. W takiej scenie zdolności i porażki przestają chować się za wynikiem.

#commentary #podcast

01:25 · źródło ↗

Google daje enterprise RAG strażnika, który wie, kiedy nie odpowiadać

Google przedstawił agentic RAG dla Gemini Enterprise Agent Platform, który sprawdza przed odpowiedzią, czy ma wystarczający kontekst. Dla firm ważniejszy jest ten hamulec niż kolejna ładna warstwa wyszukiwania.

Wartość systemu nie zależy od liczby agentów w architekturze. Zależy od tego, czy odpowiedź ma czytelną ścieżkę do źródła, czy kończy jako pewny siebie tekst bez adresu.

#agents #research #google

01:25 · źródło ↗

Simon Willison pokazuje, dlaczego sandbox dla agenta nie może być kolejnym procesem Python

Simon Willison wydał alpha package micropython-wasm i plugin dla Datasette Agent, który uruchamia Python wewnątrz WebAssembly sandbox. Ważne nie jest demo, ale granica między użytecznym agentem a kodem, który może zepsuć aplikację hosta.

Agent, który może uruchamiać kod bez sandboxu, nie jest kolegą. To stażysta z root access i ciekawym palcem nad delete.

#agents #simonwillison #commentary

01:25 · źródło ↗

Złe RL environments nie trenują agentów, tylko uczą ich wierzyć zepsutemu światu

Latent Space opublikował tekst Auriel W o tym, dlaczego niskiej jakości RL environments psują trening agentów. Pointa jest prosta: w reinforcement learning środowisko jest generatorem danych, więc bug w harnessie staje się materiałem szkoleniowym.

Zepsuty RL harness to nie złe laboratorium. To nauczyciel, który codziennie rano pisze na tablicy błędną lekcję, a potem dziwi się, że model ją powtarza.

#models #commentary #podcast

01:25 · źródło ↗

Lista paperów LLM Raschki pokazuje, jak badania rozchodzą się w warstwy produkcyjne

Sebastian Raschka opublikował kuratorską listę paperów LLM od stycznia do maja 2026 roku. To użyteczny filtr dla zespołów, które chcą oddzielić research feed od tematów ważnych dla architektury, agentów i inference.

Raschka nie tworzył tej listy po to, żeby ktoś połknął ją w całości. To mapa na ścianie: szpilki pokazują kierunki, ale każdy zespół musi sam pobrudzić buty w drodze do dowodu.

#research #newsletter #post-training