Etykieta
#Evals
Z Radaru
Radar · 2026-05-29
Zvi czyta system card Claude Opus 4.8 jako audyt zmiany ryzyk
Zvi Mowshowitz analizuje Claude Opus 4.8 jako inkrementalny upgrade z lepszymi capabilities, safety i pytaniami wokół evals.
Czytaj →Radar · 2026-05-27
ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE
IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.
Czytaj →Radar · 2026-05-22
AI Snake Oil pyta: czy agenty Google naprawdę zbudowały OS za 916 dolarów, czy to było starannie oświetlone demo?
AI Snake Oil analizuje twierdzenie, że agenty Google AI zbudowały system operacyjny za 916 dolarów. Kluczowy punkt: ogłoszenia agentyczne wymagają innego rodzaju weryfikacji niż benchmarki chatowe, bo duży cel i kilka kroków w środowisku demo łatwo zawyżyć.
Czytaj →Radar · 2026-05-11
SocialReasoning-Bench: agent wykonuje zadanie, ale nie poprawia pozycji użytkownika
Microsoft Research opisuje SocialReasoning-Bench, benchmark sprawdzający, czy agenty AI faktycznie działają w najlepszym interesie użytkownika. Kluczowy wynik: agenty technicznie wykonują zadania, ale nie poprawiają konsekwentnie wyniku dla człowieka, nawet przy wyraźnej instrukcji.
Czytaj →Ze Słownika
Słownik
AI-assisted research — model jako partner badawczy
AI-assisted research używa modeli do szukania hipotez, pisania kodu, testowania wariantów i czytania literatury. To nie automatyczna nauka. To szybsza pętla badawcza z nowymi sposobami na potknięcie.
Czytaj →Słownik
Ewaluacje i benchmarki — pomiar zamiast wrażeń
Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.
Czytaj →Słownik
Fine-tuning — skalpel, nie uniwersalny młotek
Fine-tuning zmienia wagi modelu. Jest mocny, gdy masz dane, evale i jasny powód. Jest drogim błędem, gdy maskuje zły prompt, brak RAG albo niejasny proces.
Czytaj →Słownik
Frontier model governance — kto sprawdza model przed releasem
Frontier model governance pyta, kto testuje najsilniejsze modele przed wdrożeniem, według jakich reguł i z jaką możliwością interwencji. Dobrowolny audyt, system card i testy państwowe to nie to samo.
Czytaj →Słownik
Golden Dataset — punkt odniesienia dla AI, nie złota klatka
Golden Dataset to mały, starannie sprawdzony zestaw realnych przypadków, dzięki któremu widać, czy system AI naprawdę działa. W Skillmea AI używamy go do oceny rekomendacji kursów na podstawie treści lekcji, nie opisów marketingowych.
Czytaj →