Etykieta
#newsletter
Z Radaru
Radar · 2026-06-16
Welfare modeli przechodzi z filozofii do ryzyka produktowego
Zvi Mowshowitz używa Fable i Mythos jako studium przypadku, dlaczego welfare zaawansowanych modeli nie da się oddzielić od możliwości, alignmentu i doświadczenia użytkownika. Nawet jeśli część tematu pozostaje spekulatywna, dla laboratoriów staje się to praktycznym pytaniem o evals i interwencje bezpieczeństwa.
Czytaj →Radar · 2026-06-15
Amerykański ruch wobec Fable i Mythos odbiera obrońcom ten sam nóż co napastnikom
Rząd USA nakazał Anthropic ograniczyć dostęp do Fable 5 i Mythos 5 wszystkim cudzoziemcom, więc firma wyłączyła modele dla wszystkich klientów. Protest 76 ekspertów od cyberbezpieczeństwa pokazuje słaby punkt: kontrola eksportu kiepsko odróżnia exploit od defensywnego testu.
Czytaj →Radar · 2026-06-15
Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark
Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.
Czytaj →Radar · 2026-06-15
Trumpowski AI order tworzy trzydziestodniowe okno dla frontier models
Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.
Czytaj →Radar · 2026-06-15
Lista paperów LLM Raschki pokazuje, jak badania rozchodzą się w warstwy produkcyjne
Sebastian Raschka opublikował kuratorską listę paperów LLM od stycznia do maja 2026 roku. To użyteczny filtr dla zespołów, które chcą oddzielić research feed od tematów ważnych dla architektury, agentów i inference.
Czytaj →Radar · 2026-06-09
Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej
Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.
Czytaj →Radar · 2026-06-04
Tydzień AI u Zviego pokazuje, że jedna wielka narracja nie wystarczy
AI #171 Zviego Mowshowitza nie jest jednym czystym trendem, tylko mapą sygnałów: Claude Opus 4.8, amerykańskie testowanie frontier models, policy blueprint OpenAI i spory wokół PAC.
Czytaj →Radar · 2026-06-01
Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek
Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.
Czytaj →Radar · 2026-05-26
LWiAI #246: jeden tydzień, cztery fronty naraz. Google I/O, agenci, prawnicy, bezpieczeństwo
Epizoda LWiAI Podcast #246 z 26 maja 2026 to rozcestník, nie jedna wielka teza. Google I/O, coding agents, presja prawna wokół OpenAI i badania nad bezpieczeństwem złożyły się w jeden tydzień i zarysowały cztery równoczesne presje na rynek AI.
Czytaj →