#Evals | Lilith AI

Z Radaru

Radar · 2026-05-29

Zvi czyta system card Claude Opus 4.8 jako audyt zmiany ryzyk

Zvi Mowshowitz analizuje Claude Opus 4.8 jako inkrementalny upgrade z lepszymi capabilities, safety i pytaniami wokół evals.

Czytaj →

Radar · 2026-05-27

ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE

IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.

Czytaj →

Radar · 2026-05-22

AI Snake Oil pyta: czy agenty Google naprawdę zbudowały OS za 916 dolarów, czy to było starannie oświetlone demo?

AI Snake Oil analizuje twierdzenie, że agenty Google AI zbudowały system operacyjny za 916 dolarów. Kluczowy punkt: ogłoszenia agentyczne wymagają innego rodzaju weryfikacji niż benchmarki chatowe, bo duży cel i kilka kroków w środowisku demo łatwo zawyżyć.

Czytaj →

Radar · 2026-05-11

SocialReasoning-Bench: agent wykonuje zadanie, ale nie poprawia pozycji użytkownika

Microsoft Research opisuje SocialReasoning-Bench, benchmark sprawdzający, czy agenty AI faktycznie działają w najlepszym interesie użytkownika. Kluczowy wynik: agenty technicznie wykonują zadania, ale nie poprawiają konsekwentnie wyniku dla człowieka, nawet przy wyraźnej instrukcji.

Czytaj →

Ze Słownika

Słownik

AI-assisted research — model jako partner badawczy

AI-assisted research używa modeli do szukania hipotez, pisania kodu, testowania wariantów i czytania literatury. To nie automatyczna nauka. To szybsza pętla badawcza z nowymi sposobami na potknięcie.

Czytaj →

Słownik

Ewaluacje i benchmarki — pomiar zamiast wrażeń

Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.

Czytaj →

Słownik

Fine-tuning — skalpel, nie uniwersalny młotek

Fine-tuning zmienia wagi modelu. Jest mocny, gdy masz dane, evale i jasny powód. Jest drogim błędem, gdy maskuje zły prompt, brak RAG albo niejasny proces.

Czytaj →

Słownik

Frontier model governance — kto sprawdza model przed releasem

Frontier model governance pyta, kto testuje najsilniejsze modele przed wdrożeniem, według jakich reguł i z jaką możliwością interwencji. Dobrowolny audyt, system card i testy państwowe to nie to samo.

Czytaj →

Słownik

Golden Dataset — punkt odniesienia dla AI, nie złota klatka

Golden Dataset to mały, starannie sprawdzony zestaw realnych przypadków, dzięki któremu widać, czy system AI naprawdę działa. W Skillmea AI używamy go do oceny rekomendacji kursów na podstawie treści lekcji, nie opisów marketingowych.

Czytaj →