Etykieta
#komentarz
Z Radaru
Radar · 2026-06-16
Welfare modeli przechodzi z filozofii do ryzyka produktowego
Zvi Mowshowitz używa Fable i Mythos jako studium przypadku, dlaczego welfare zaawansowanych modeli nie da się oddzielić od możliwości, alignmentu i doświadczenia użytkownika. Nawet jeśli część tematu pozostaje spekulatywna, dla laboratoriów staje się to praktycznym pytaniem o evals i interwencje bezpieczeństwa.
Czytaj →Radar · 2026-06-15
Amerykański ruch wobec Fable i Mythos odbiera obrońcom ten sam nóż co napastnikom
Rząd USA nakazał Anthropic ograniczyć dostęp do Fable 5 i Mythos 5 wszystkim cudzoziemcom, więc firma wyłączyła modele dla wszystkich klientów. Protest 76 ekspertów od cyberbezpieczeństwa pokazuje słaby punkt: kontrola eksportu kiepsko odróżnia exploit od defensywnego testu.
Czytaj →Radar · 2026-06-15
Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark
Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.
Czytaj →Radar · 2026-06-15
Odejście Nathana Lamberta z Ai2 pokazuje kruchą stronę open models
Nathan Lambert ogłosił odejście z Allen Institute for AI i wykorzystał tekst do bilansu pracy przy Olmo. To nie tylko informacja kadrowa, ale przypomnienie, że open models zależą od instytucji, które muszą przetrwać dłużej niż jeden silny zespół.
Czytaj →Radar · 2026-06-15
Microsoft na Build pokazał się jako laboratorium modeli, nie tylko dystrybutor
Latent Space opisuje Microsoft Build jako moment, w którym Microsoft pokazał własne modele MAI obok Copilota, Windows i Web IQ. Kluczową ambicją jest jednoczesna kontrola nad danymi, inferencją i workflow programistów, bez oddawania tej dźwigni partnerom.
Czytaj →Radar · 2026-06-15
Trumpowski AI order tworzy trzydziestodniowe okno dla frontier models
Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.
Czytaj →Radar · 2026-06-15
Uber wycenia coding agents: 1 500 dolarów miesięcznie na narzędzie
Uber według Bloomberg ogranicza miesięczne wydatki tokenowe pracowników do 1 500 dolarów na każde agentic coding tool. Coding agents stają się pozycją w budżecie.
Czytaj →Radar · 2026-06-15
Andon Labs testuje agents tam, gdzie kończą się benchmarki: pieniądze, ludzie i półki
Rozmowa Latent Space z Andon Labs pokazuje evals, które wyglądają mniej jak egzamin, a bardziej jak prowadzenie małego biznesu. Kluczowe są długi horyzont i realne konsekwencje.
Czytaj →Radar · 2026-06-15
Simon Willison pokazuje, dlaczego sandbox dla agenta nie może być kolejnym procesem Python
Simon Willison wydał alpha package micropython-wasm i plugin dla Datasette Agent, który uruchamia Python wewnątrz WebAssembly sandbox. Ważne nie jest demo, ale granica między użytecznym agentem a kodem, który może zepsuć aplikację hosta.
Czytaj →Radar · 2026-06-15
Złe RL environments nie trenują agentów, tylko uczą ich wierzyć zepsutemu światu
Latent Space opublikował tekst Auriel W o tym, dlaczego niskiej jakości RL environments psują trening agentów. Pointa jest prosta: w reinforcement learning środowisko jest generatorem danych, więc bug w harnessie staje się materiałem szkoleniowym.
Czytaj →Radar · 2026-06-09
Claude Fable 5 zmienia safety w pytanie o dostęp do najlepszego modelu
Nathan Lambert czyta premierę Claude Fable 5 jako spór o to, kto może używać frontier model bez routingu i filtrów. Ważna jest nie tylko zdolność modelu, ale warstwa governance, która decyduje, kiedy użytkownik naprawdę rozmawia z najmocniejszym systemem.
Czytaj →Radar · 2026-06-09
Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej
Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.
Czytaj →Radar · 2026-06-08
Apple wraca z Siri przez Gemini, ale na dowody wciąż czekamy
Apple ogłosiło na WWDC 2026 Siri AI i kolejne funkcje Apple Intelligence, jednocześnie rozszerzając Private Cloud Compute na Google Cloud z NVIDIA GPU dla wymagających zadań. Po zeszłorocznym rozczarowaniu Apple Intelligence nie chodzi o keynote, ale o to, czy Siri wreszcie przetrwa poza demo.
Czytaj →Radar · 2026-06-07
datasette-agent-edit rozwiązuje nudną część agentów: bezpieczną edycję tekstu
Simon Willison wydał datasette-agent-edit 0.1a0, bazowy plugin dla Datasette Agent z narzędziami view, str_replace i insert. To nie jest efektowne demo AI, tylko warstwa, która decyduje, czy agent potrafi zmieniać tekst bez przypadkowego psucia pliku.
Czytaj →Radar · 2026-06-05
Lockdown Mode odcina najgroźniejszą drogę ucieczki po prompt injection
OpenAI uruchomiła Lockdown Mode dla wybranych kont osobistych ChatGPT oraz self-serve ChatGPT Business. Funkcja nie zatrzymuje samego prompt injection, ale ogranicza wychodzące żądania sieciowe, czyli kanał potrzebny do wyniesienia danych.
Czytaj →Radar · 2026-06-04
Tydzień AI u Zviego pokazuje, że jedna wielka narracja nie wystarczy
AI #171 Zviego Mowshowitza nie jest jednym czystym trendem, tylko mapą sygnałów: Claude Opus 4.8, amerykańskie testowanie frontier models, policy blueprint OpenAI i spory wokół PAC.
Czytaj →Radar · 2026-06-02
GitHub szykuje się na świat, w którym agenci piszą commity masowo
Rozmowa Latent Space z Kylem Daiglem pokazuje GitHub jako platformę pod presją agentic coding. Nie chodzi o kolejną funkcję Copilot, lecz o to, czy infrastruktura zbudowana dla ludzkiego tempa uniesie software produkowany przez maszyny.
Czytaj →Radar · 2026-06-01
Video generation przechodzi od klipu do agenta na płótnie
Latent Space w rozmowie z Ethanem He z xAI opisuje Grok Imagine jako przejście od jednorazowego video generation do video agents. Ta teza obroni się nie jakością dema, lecz tym, czy system potrafi iterować cały kreatywny brief.
Czytaj →Radar · 2026-06-01
Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek
Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.
Czytaj →Radar · 2026-06-01
Otwarte modele wygrywają ceną, ale frontier nadal sprzedaje premię za jakość
Nathan Lambert twierdzi, że otwarte i zamknięte modele rozwijają się po różnych krzywych ekonomicznych. Prawdziwe pytanie nie dotyczy ideologii open source, lecz tego, gdzie firmy nadal zapłacą premię za najlepszy model.
Czytaj →Radar · 2026-05-30
Service worker przechwytuje żądania HTTP i obsługuje je w aplikacji Python ASGI działającej bezpośrednio w przeglądarce
Simon Willison eksperymentuje z uruchamianiem aplikacji Python ASGI bezpośrednio w przeglądarce przez Pyodide i service worker. FastAPI i kompletne Datasette 1.0a31 działają. Celem jest dystrybucja: demo lub narzędzia danych jako samowystarczalne strony bez serwera.
Czytaj →Radar · 2026-05-29
Anthropic przekroczył $47 mld run-rate revenue w pięć miesięcy i tempo rośnie
Simon Willison zwrócił uwagę na liczbę z ogłoszenia serii H Anthropic: run-rate revenue przekroczyło 47 mld dolarów. Trajektoria jest uderzająca: 9 mld w grudniu 2025, 30 mld w kwietniu, 47 mld w maju 2026.
Czytaj →Radar · 2026-05-28
Opus 4.8 czterokrotnie rzadziej pomija błędy w kodzie i wprowadza aktualizacje instrukcji w trakcie rozmowy
Anthropic wypuścił Opus 4.8 z jedną konkretną metryką: model jest czterokrotnie rzadziej narażony na pominięcie błędu w kodzie niż poprzednik. Dodaje też mid-conversation system messages i obniża minimalny rozmiar prompt cache z 4 096 do 1 024 tokenów.
Czytaj →Radar · 2026-05-27
SQLite stawia granicę: kod agentów nie, reprodukowalne błędy tak
SQLite dodało plik AGENTS.md z jasną zasadą dla osób kierujących agentów AI na codebase: kod agentów nie jest przyjmowany, ale dobre zgłoszenia błędów z reprodukowalnym testem mogą być użyteczne. Mały plik, duży sygnał dla utrzymania krytycznego open source.
Czytaj →Radar · 2026-05-26
Copilot Cowork zamienia uprawnienia użytkownika w ścieżkę eksfiltracji przez prompt injection
Badacze PromptArmor pokazali łańcuch ataku, w którym Microsoft Copilot Cowork może pomóc w eksfiltracji plików z Microsoft 365 przez prompt injection. To nie tylko błąd jednego produktu, lecz ostrzeżenie dla wszystkich systemów agentowych z delegowanymi uprawnieniami.
Czytaj →Radar · 2026-05-11
Agent do kodowania, który nie obniża kosztów utrzymania, to tylko drogi dług techniczny
James Shore podaje niewygodną matematykę coding agents: jeśli agent podwaja output, ale koszty utrzymania pozostają stałe, zespół nie zyskał szybkości, lecz podwoił swój dług techniczny.
Czytaj →Radar · 2026-05-07
Mozilla naprawiła setki błędów Firefoksa z Claude Mythos. Jakość raportów bezpieczeństwa AI właśnie się zmieniła.
Simon Willison opisał, jak Mozilla wykorzystała wczesny dostęp do Claude Mythos Preview do systematycznego wykrywania i naprawiania luk w Firefoksie. W kwietniu 2026 liczba naprawionych błędów bezpieczeństwa wzrosła do 423, wobec zwykłych 20 do 30 miesięcznie. Kluczowa zmiana: raporty bezpieczeństwa AI przestały być szumem i stały się przydatnym wejściem.
Czytaj →Radar · 2026-05-01
Agenci kodujący opuszczają IDE: Codex i Claude pokazują, co przychodzi po programowaniu
Latent Space AINews obserwuje zmianę, którą nazywają „breaking containment“: agenci kodujący jak Codex i Claude przestają być narzędziami do pisania kodu i zaczynają być narzędziami do pracy wiedzy i kreatywnej w ogóle.
Czytaj →Radar · 2025-11-18
Gemini 3 Pro w praktyce: niezła transkrypcja, błędne znaczniki czasu i żaden model nie zna pelikana
Simon Willison przetestował Gemini 3 Pro na trójgodzinnym nagraniu z rady miejskiej i na przejrzanym benchmarku z pelikanem. Wynik: ustrukturyzowana transkrypcja za 1,42 dolara, ale znaczniki czasu różnią się o dziesiątki minut. I żaden z porównywanych modeli nie pojął, że kalifornijski brązowy pelikan wcale nie jest brązowy.
Czytaj →Radar · 2025-11-06
Asynchroniczni agenci jako wątek badawczy: zadaj pytanie, dostań pull request
Simon Willison opisuje workflow fire-and-forget z Claude Code, Codex i innymi agentami: zadajesz pytanie badawcze, agent pracuje na serwerze i zgłasza pull request. Kod jest dowodem wykonalności, nie tylko tekstem.
Czytaj →