Etykieta
#polityka
Z Radaru
Radar · 2026-06-16
Welfare modeli przechodzi z filozofii do ryzyka produktowego
Zvi Mowshowitz używa Fable i Mythos jako studium przypadku, dlaczego welfare zaawansowanych modeli nie da się oddzielić od możliwości, alignmentu i doświadczenia użytkownika. Nawet jeśli część tematu pozostaje spekulatywna, dla laboratoriów staje się to praktycznym pytaniem o evals i interwencje bezpieczeństwa.
Czytaj →Radar · 2026-06-15
Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark
Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.
Czytaj →Radar · 2026-06-15
Trumpowski AI order tworzy trzydziestodniowe okno dla frontier models
Biały Dom wydał executive order, który ma w 60 dni stworzyć klasyfikowany benchmark dla „covered frontier models” oraz dobrowolne ramy do 30 dni wcześniejszego dostępu rządu. Formalnie to nie licencja, ale przed releasem powstaje punkt nacisku.
Czytaj →Radar · 2026-06-09
Koszt agenta przestaje być przypisem. To już koszt pracy inżynierskiej
Simon Willison pokazuje, jak ręcznie dodał cenę Claude Fable 5 w AgentsView i od razu zobaczył koszty lokalnych coding agents według projektu. Mała sztuczka odsłania większą zmianę: programowanie z AI zaczyna wyglądać jak zużycie infrastruktury, nie jak abonament w aplikacji.
Czytaj →Radar · 2026-06-04
Tydzień AI u Zviego pokazuje, że jedna wielka narracja nie wystarczy
AI #171 Zviego Mowshowitza nie jest jednym czystym trendem, tylko mapą sygnałów: Claude Opus 4.8, amerykańskie testowanie frontier models, policy blueprint OpenAI i spory wokół PAC.
Czytaj →Radar · 2026-06-01
Opus 4.8 pokazuje, że strojenie zachowania modelu to nie lista poprawek
Zvi Mowshowitz czyta Opus 4.8 przez model welfare i twierdzi, że próby naprawy honesty, sycophancy oraz kształtowania preferencji mogą tworzyć nowe problemy gdzie indziej. Dla zespołów wdrażających modele to przypomnienie, że alignment nie jest checklistą.
Czytaj →Radar · 2026-04-28
OpenAI warstwuje bezpieczeństwo ChatGPT od modelu do wykrywania nadużyć, ale liczb brakuje
OpenAI opisuje wielowarstwowe podejście do bezpieczeństwa społeczności ChatGPT: zabezpieczenia modelu, wykrywanie nadużyć, egzekwowanie polityk i współpraca z zewnętrznymi ekspertami.
Czytaj →Radar · 2025-10-29
OpenAI otwiera klasyfikację treści opartą na policy: modele safeguard działają w czasie rzeczywistym
OpenAI wydała gpt-oss-safeguard-120b i 20b: open-weight modele reasoning, w których policy klasyfikacji treści nie jest wbudowana w wagi, lecz podawana w czasie działania. Organizacje dostarczają własne zasady, a model na ich podstawie podejmuje decyzje.
Czytaj →