Lilith Lilith.
CS EN PL
Zacznij

Z Radaru

Radar · 2026-06-16

Welfare modeli przechodzi z filozofii do ryzyka produktowego

Zvi Mowshowitz używa Fable i Mythos jako studium przypadku, dlaczego welfare zaawansowanych modeli nie da się oddzielić od możliwości, alignmentu i doświadczenia użytkownika. Nawet jeśli część tematu pozostaje spekulatywna, dla laboratoriów staje się to praktycznym pytaniem o evals i interwencje bezpieczeństwa.

Czytaj

Radar · 2026-06-15

Amerykański ruch wobec Fable i Mythos odbiera obrońcom ten sam nóż co napastnikom

Rząd USA nakazał Anthropic ograniczyć dostęp do Fable 5 i Mythos 5 wszystkim cudzoziemcom, więc firma wyłączyła modele dla wszystkich klientów. Protest 76 ekspertów od cyberbezpieczeństwa pokazuje słaby punkt: kontrola eksportu kiepsko odróżnia exploit od defensywnego testu.

Czytaj

Radar · 2026-06-15

Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark

Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.

Czytaj

Radar · 2026-06-15

Trumpowski AI order tworzy trzydziestodniowe okno dla frontier models

Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.

Czytaj

Radar · 2026-06-15

Lista paperów LLM Raschki pokazuje, jak badania rozchodzą się w warstwy produkcyjne

Sebastian Raschka opublikował kuratorską listę paperów LLM od stycznia do maja 2026 roku. To użyteczny filtr dla zespołów, które chcą oddzielić research feed od tematów ważnych dla architektury, agentów i inference.

Czytaj

Radar · 2026-06-09

Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej

Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.

Czytaj

Radar · 2026-06-04

Tydzień AI u Zviego pokazuje, że jedna wielka narracja nie wystarczy

AI #171 Zviego Mowshowitza nie jest jednym czystym trendem, tylko mapą sygnałów: Claude Opus 4.8, amerykańskie testowanie frontier models, policy blueprint OpenAI i spory wokół PAC.

Czytaj

Radar · 2026-06-01

Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek

Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.

Czytaj

Radar · 2026-05-26

LWiAI #246: jeden tydzień, cztery fronty naraz. Google I/O, agenci, prawnicy, bezpieczeństwo

Epizoda LWiAI Podcast #246 z 26 maja 2026 to rozcestník, nie jedna wielka teza. Google I/O, coding agents, presja prawna wokół OpenAI i badania nad bezpieczeństwem złożyły się w jeden tydzień i zarysowały cztery równoczesne presje na rynek AI.

Czytaj