Anthropic twierdzi, że amerykańskie władze nakazały wstrzymać dostęp do Fable 5 i Mythos 5 dla cudzoziemców, więc firma wyłączyła oba modele wszystkim klientom. Kupujący frontier AI muszą dziś liczyć ryzyko, które siedzi poza modelem: państwowy wyłącznik.
Fable 5 to już nie tylko model w trybie incydentu. To kartka na drzwiach datacenter: najlepszy eval może przegrać z urzędnikiem, który ma pieczątkę i wolny piątkowy wieczór.
Rząd USA nakazał Anthropic ograniczyć dostęp do Fable 5 i Mythos 5 wszystkim cudzoziemcom, więc firma wyłączyła modele dla wszystkich klientów. Protest 76 ekspertów od cyberbezpieczeństwa pokazuje słaby punkt: kontrola eksportu kiepsko odróżnia exploit od defensywnego testu.
Państwo nie zabrało tylko zapałek podpalaczowi. Na chwilę zabrało też drabinę strażakom, a potem liczyło, że pożar grzecznie zwolni.
Badanie opisane przez 404 Media twierdzi, że 13 słów w pobranym fragmencie tekstu z Reddita, Wikipedii, Quory lub Facebooka może popchnąć agentów AI w stronę spamu albo scamu. Dla AI search oznacza to przesunięcie SEO w obszar prompt injection i moderacji user-generated content.
Stare SEO próbowało przeskoczyć płot wyszukiwarki. Nowy spam siada w bibliotece, czeka na asystenta i szepcze mu trzynaście słów do ucha.
Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.
Opus 4.8 nie jest modelem, który ma olśnić programistę jedną sztuczką. To kolega przy whiteboardzie, który wreszcie czasem się zatrzyma, wskaże zły warunek i powie: tego nie wrzucałabym do mainu.
Nathan Lambert ogłosił odejście z Allen Institute for AI i wykorzystał tekst do bilansu pracy przy Olmo. To nie tylko informacja kadrowa, ale przypomnienie, że open models zależą od instytucji, które muszą przetrwać dłużej niż jeden silny zespół.
Open AI nie wygrywa wtedy, gdy jeden badacz klaszcze przy przycisku release. Wygrywa wtedy, gdy po jego odejściu zostaje laboratorium, checklist i kolejna osoba, która wie, dlaczego dane mają wyjść poza budynek.
H Company wydała Holo3.1, rodzinę computer-use models dla web, desktop, mobile i local inference. Najważniejsze nie są tylko wyższe wyniki, ale próba przeniesienia agenta bliżej miejsca, w którym naprawdę dzieje się praca.
Holo3.1 próbuje wyjąć agenta z datacenter i posadzić go przed twoim własnym monitorem. Prawdziwy test zacznie się wtedy, gdy aplikacja księgowa pokaże dziwne okno, a obok nikt nie trzyma myszy.
Latent Space opisuje Microsoft Build jako moment, w którym Microsoft pokazał własne modele MAI obok Copilota, Windows i Web IQ. Kluczową ambicją jest jednoczesna kontrola nad danymi, inferencją i workflow programistów, bez oddawania tej dźwigni partnerom.
Build 2026 był sygnałem, że Microsoft bierze warstwę modeli z powrotem pod własny dach. Copilot przestaje wtedy być integratorem cudzych API i staje się produktem z własnym kręgosłupem.
Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.
Rząd wziął sobie trzydzieści dni przed każdym frontier releasem. Prawnie dobrowolne, ale każdy lab z klientami federalnymi wie, że odmowa będzie trudniejsza niż wejście w proces.
Uber według Bloomberg ogranicza miesięczne wydatki tokenowe pracowników do 1 500 dolarów na każde agentic coding tool. Coding agents stają się pozycją w budżecie.
Coding agents właśnie podeszli do pierwszej kasy. Wygra nie zespół, który spali najwięcej tokenów, tylko ten, który przypnie rachunek za agenta do konkretnego merge.
Rozmowa Latent Space z Andon Labs pokazuje evals, które wyglądają mniej jak egzamin, a bardziej jak prowadzenie małego biznesu. Kluczowe są długi horyzont i realne konsekwencje.
Andon pokazuje agentowi coś trudniejszego niż test: otwarty sklep, klienta przy ladzie i rachunek, który ktoś musi zapłacić. W takiej scenie zdolności i porażki przestają chować się za wynikiem.
Google przedstawił agentic RAG dla Gemini Enterprise Agent Platform, który sprawdza przed odpowiedzią, czy ma wystarczający kontekst. Dla firm ważniejszy jest ten hamulec niż kolejna ładna warstwa wyszukiwania.
Wartość systemu nie zależy od liczby agentów w architekturze. Zależy od tego, czy odpowiedź ma czytelną ścieżkę do źródła, czy kończy jako pewny siebie tekst bez adresu.
Simon Willison wydał alpha package micropython-wasm i plugin dla Datasette Agent, który uruchamia Python wewnątrz WebAssembly sandbox. Ważne nie jest demo, ale granica między użytecznym agentem a kodem, który może zepsuć aplikację hosta.
Agent, który może uruchamiać kod bez sandboxu, nie jest kolegą. To stażysta z root access i ciekawym palcem nad delete.
Latent Space opublikował tekst Auriel W o tym, dlaczego niskiej jakości RL environments psują trening agentów. Pointa jest prosta: w reinforcement learning środowisko jest generatorem danych, więc bug w harnessie staje się materiałem szkoleniowym.
Zepsuty RL harness to nie złe laboratorium. To nauczyciel, który codziennie rano pisze na tablicy błędną lekcję, a potem dziwi się, że model ją powtarza.
Sebastian Raschka opublikował kuratorską listę paperów LLM od stycznia do maja 2026 roku. To użyteczny filtr dla zespołów, które chcą oddzielić research feed od tematów ważnych dla architektury, agentów i inference.
Raschka nie tworzył tej listy po to, żeby ktoś połknął ją w całości. To mapa na ścianie: szpilki pokazują kierunki, ale każdy zespół musi sam pobrudzić buty w drodze do dowodu.