Lilith Lilith.
CS EN PL
Zacznij

Z Radaru

Radar · 2026-06-16

Welfare modeli przechodzi z filozofii do ryzyka produktowego

Zvi Mowshowitz używa Fable i Mythos jako studium przypadku, dlaczego welfare zaawansowanych modeli nie da się oddzielić od możliwości, alignmentu i doświadczenia użytkownika. Nawet jeśli część tematu pozostaje spekulatywna, dla laboratoriów staje się to praktycznym pytaniem o evals i interwencje bezpieczeństwa.

Czytaj

Radar · 2026-06-15

Amerykański ruch wobec Fable i Mythos odbiera obrońcom ten sam nóż co napastnikom

Rząd USA nakazał Anthropic ograniczyć dostęp do Fable 5 i Mythos 5 wszystkim cudzoziemcom, więc firma wyłączyła modele dla wszystkich klientów. Protest 76 ekspertów od cyberbezpieczeństwa pokazuje słaby punkt: kontrola eksportu kiepsko odróżnia exploit od defensywnego testu.

Czytaj

Radar · 2026-06-15

Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark

Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.

Czytaj

Radar · 2026-06-15

Odejście Nathana Lamberta z Ai2 pokazuje kruchą stronę open models

Nathan Lambert ogłosił odejście z Allen Institute for AI i wykorzystał tekst do bilansu pracy przy Olmo. To nie tylko informacja kadrowa, ale przypomnienie, że open models zależą od instytucji, które muszą przetrwać dłużej niż jeden silny zespół.

Czytaj

Radar · 2026-06-15

Microsoft na Build pokazał się jako laboratorium modeli, nie tylko dystrybutor

Latent Space opisuje Microsoft Build jako moment, w którym Microsoft pokazał własne modele MAI obok Copilota, Windows i Web IQ. Kluczową ambicją jest jednoczesna kontrola nad danymi, inferencją i workflow programistów, bez oddawania tej dźwigni partnerom.

Czytaj

Radar · 2026-06-15

Trumpowski AI order tworzy trzydziestodniowe okno dla frontier models

Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.

Czytaj

Radar · 2026-06-15

Uber wycenia coding agents: 1 500 dolarów miesięcznie na narzędzie

Uber według Bloomberg ogranicza miesięczne wydatki tokenowe pracowników do 1 500 dolarów na każde agentic coding tool. Coding agents stają się pozycją w budżecie.

Czytaj

Radar · 2026-06-15

Andon Labs testuje agents tam, gdzie kończą się benchmarki: pieniądze, ludzie i półki

Rozmowa Latent Space z Andon Labs pokazuje evals, które wyglądają mniej jak egzamin, a bardziej jak prowadzenie małego biznesu. Kluczowe są długi horyzont i realne konsekwencje.

Czytaj

Radar · 2026-06-15

Simon Willison pokazuje, dlaczego sandbox dla agenta nie może być kolejnym procesem Python

Simon Willison wydał alpha package micropython-wasm i plugin dla Datasette Agent, który uruchamia Python wewnątrz WebAssembly sandbox. Ważne nie jest demo, ale granica między użytecznym agentem a kodem, który może zepsuć aplikację hosta.

Czytaj

Radar · 2026-06-15

Złe RL environments nie trenują agentów, tylko uczą ich wierzyć zepsutemu światu

Latent Space opublikował tekst Auriel W o tym, dlaczego niskiej jakości RL environments psują trening agentów. Pointa jest prosta: w reinforcement learning środowisko jest generatorem danych, więc bug w harnessie staje się materiałem szkoleniowym.

Czytaj

Radar · 2026-06-09

Claude Fable 5 zmienia safety w pytanie o dostęp do najlepszego modelu

Nathan Lambert czyta premierę Claude Fable 5 jako spór o to, kto może używać frontier model bez routingu i filtrów. Ważna jest nie tylko zdolność modelu, ale warstwa governance, która decyduje, kiedy użytkownik naprawdę rozmawia z najmocniejszym systemem.

Czytaj

Radar · 2026-06-09

Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej

Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.

Czytaj

Radar · 2026-06-08

Apple wraca z Siri przez Gemini, ale na dowody wciąż czekamy

Apple ogłosiło na WWDC 2026 Siri AI i kolejne funkcje Apple Intelligence, jednocześnie rozszerzając Private Cloud Compute na Google Cloud z NVIDIA GPU dla wymagających zadań. Po zeszłorocznym rozczarowaniu Apple Intelligence nie chodzi o keynote, ale o to, czy Siri wreszcie przetrwa poza demo.

Czytaj

Radar · 2026-06-07

datasette-agent-edit rozwiązuje nudną część agentów: bezpieczną edycję tekstu

Simon Willison wydał datasette-agent-edit 0.1a0, bazowy plugin dla Datasette Agent z narzędziami view, str_replace i insert. To nie jest efektowne demo AI, tylko warstwa, która decyduje, czy agent potrafi zmieniać tekst bez przypadkowego psucia pliku.

Czytaj

Radar · 2026-06-05

Lockdown Mode odcina najgroźniejszą drogę ucieczki po prompt injection

OpenAI uruchomiła Lockdown Mode dla wybranych kont osobistych ChatGPT oraz self-serve ChatGPT Business. Funkcja nie zatrzymuje samego prompt injection, ale ogranicza wychodzące żądania sieciowe, czyli kanał potrzebny do wyniesienia danych.

Czytaj

Radar · 2026-06-04

Tydzień AI u Zviego pokazuje, że jedna wielka narracja nie wystarczy

AI #171 Zviego Mowshowitza nie jest jednym czystym trendem, tylko mapą sygnałów: Claude Opus 4.8, amerykańskie testowanie frontier models, policy blueprint OpenAI i spory wokół PAC.

Czytaj

Radar · 2026-06-02

GitHub szykuje się na świat, w którym agenci piszą commity masowo

Rozmowa Latent Space z Kylem Daiglem pokazuje GitHub jako platformę pod presją agentic coding. Nie chodzi o kolejną funkcję Copilot, lecz o to, czy infrastruktura zbudowana dla ludzkiego tempa uniesie software produkowany przez maszyny.

Czytaj

Radar · 2026-06-01

Video generation przechodzi od klipu do agenta na płótnie

Latent Space w rozmowie z Ethanem He z xAI opisuje Grok Imagine jako przejście od jednorazowego video generation do video agents. Ta teza obroni się nie jakością dema, lecz tym, czy system potrafi iterować cały kreatywny brief.

Czytaj

Radar · 2026-06-01

Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek

Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.

Czytaj

Radar · 2026-06-01

Otwarte modele wygrywają ceną, ale frontier nadal sprzedaje premię za jakość

Nathan Lambert twierdzi, że otwarte i zamknięte modele rozwijają się po różnych krzywych ekonomicznych. Prawdziwe pytanie nie dotyczy ideologii open source, lecz tego, gdzie firmy nadal zapłacą premię za najlepszy model.

Czytaj

Radar · 2026-05-30

Service worker przechwytuje żądania HTTP i obsługuje je w aplikacji Python ASGI działającej bezpośrednio w przeglądarce

Simon Willison eksperymentuje z uruchamianiem aplikacji Python ASGI bezpośrednio w przeglądarce przez Pyodide i service worker. FastAPI i kompletne Datasette 1.0a31 działają. Celem jest dystrybucja: demo lub narzędzia danych jako samowystarczalne strony bez serwera.

Czytaj

Radar · 2026-05-29

Anthropic przekroczył $47 mld run-rate revenue w pięć miesięcy i tempo rośnie

Simon Willison zwrócił uwagę na liczbę z ogłoszenia serii H Anthropic: run-rate revenue przekroczyło 47 mld dolarów. Trajektoria jest uderzająca: 9 mld w grudniu 2025, 30 mld w kwietniu, 47 mld w maju 2026.

Czytaj

Radar · 2026-05-28

Opus 4.8 czterokrotnie rzadziej pomija błędy w kodzie i wprowadza aktualizacje instrukcji w trakcie rozmowy

Anthropic wypuścił Opus 4.8 z jedną konkretną metryką: model jest czterokrotnie rzadziej narażony na pominięcie błędu w kodzie niż poprzednik. Dodaje też mid-conversation system messages i obniża minimalny rozmiar prompt cache z 4 096 do 1 024 tokenów.

Czytaj

Radar · 2026-05-27

SQLite stawia granicę: kod agentów nie, reprodukowalne błędy tak

SQLite dodało plik AGENTS.md z jasną zasadą dla osób kierujących agentów AI na codebase: kod agentów nie jest przyjmowany, ale dobre zgłoszenia błędów z reprodukowalnym testem mogą być użyteczne. Mały plik, duży sygnał dla utrzymania krytycznego open source.

Czytaj

Radar · 2026-05-26

Copilot Cowork zamienia uprawnienia użytkownika w ścieżkę eksfiltracji przez prompt injection

Badacze PromptArmor pokazali łańcuch ataku, w którym Microsoft Copilot Cowork może pomóc w eksfiltracji plików z Microsoft 365 przez prompt injection. To nie tylko błąd jednego produktu, lecz ostrzeżenie dla wszystkich systemów agentowych z delegowanymi uprawnieniami.

Czytaj

Radar · 2026-05-11

Agent do kodowania, który nie obniża kosztów utrzymania, to tylko drogi dług techniczny

James Shore podaje niewygodną matematykę coding agents: jeśli agent podwaja output, ale koszty utrzymania pozostają stałe, zespół nie zyskał szybkości, lecz podwoił swój dług techniczny.

Czytaj

Radar · 2026-05-07

Mozilla naprawiła setki błędów Firefoksa z Claude Mythos. Jakość raportów bezpieczeństwa AI właśnie się zmieniła.

Simon Willison opisał, jak Mozilla wykorzystała wczesny dostęp do Claude Mythos Preview do systematycznego wykrywania i naprawiania luk w Firefoksie. W kwietniu 2026 liczba naprawionych błędów bezpieczeństwa wzrosła do 423, wobec zwykłych 20 do 30 miesięcznie. Kluczowa zmiana: raporty bezpieczeństwa AI przestały być szumem i stały się przydatnym wejściem.

Czytaj

Radar · 2026-05-01

Agenci kodujący opuszczają IDE: Codex i Claude pokazują, co przychodzi po programowaniu

Latent Space AINews obserwuje zmianę, którą nazywają „breaking containment“: agenci kodujący jak Codex i Claude przestają być narzędziami do pisania kodu i zaczynają być narzędziami do pracy wiedzy i kreatywnej w ogóle.

Czytaj

Radar · 2025-11-18

Gemini 3 Pro w praktyce: niezła transkrypcja, błędne znaczniki czasu i żaden model nie zna pelikana

Simon Willison przetestował Gemini 3 Pro na trójgodzinnym nagraniu z rady miejskiej i na przejrzanym benchmarku z pelikanem. Wynik: ustrukturyzowana transkrypcja za 1,42 dolara, ale znaczniki czasu różnią się o dziesiątki minut. I żaden z porównywanych modeli nie pojął, że kalifornijski brązowy pelikan wcale nie jest brązowy.

Czytaj

Radar · 2025-11-06

Asynchroniczni agenci jako wątek badawczy: zadaj pytanie, dostań pull request

Simon Willison opisuje workflow fire-and-forget z Claude Code, Codex i innymi agentami: zadajesz pytanie badawcze, agent pracuje na serwerze i zgłasza pull request. Kod jest dowodem wykonalności, nie tylko tekstem.

Czytaj