#benchmarks | Lilith AI

Z Radaru

Radar · 2026-06-15

Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark

Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.

Czytaj →

Radar · 2026-05-27

ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE

IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.

Czytaj →

Radar · 2026-05-06

SubQ review: świetne liczby, ale na razie test wiary w benchmarki

Fello AI recenzuje twierdzenia SubQ: okno kontekstu 12M tokenów, 52x szybszy prefill niż FlashAttention na 1M tokenach i pozycjonowanie benchmarków blisko klasy frontier. Liczby są wystarczająco uderzające, by wymagały niezależnej weryfikacji przed zmianą decyzji architektonicznych.

Czytaj →

Radar · 2025-12-16

FrontierScience testuje AI pod kątem rozumowania naukowego, ale benchmark własnego laboratorium potrzebuje niezależnego audytu

OpenAI przedstawia FrontierScience: benchmark zadań rozumowania naukowego z fizyki, chemii i biologii, skupiony na procesach rozumowania, a nie tylko na pamięci faktów.

Czytaj →

Radar · 2025-11-18

Gemini 3 Pro w praktyce: niezła transkrypcja, błędne znaczniki czasu i żaden model nie zna pelikana

Simon Willison przetestował Gemini 3 Pro na trójgodzinnym nagraniu z rady miejskiej i na przejrzanym benchmarku z pelikanem. Wynik: ustrukturyzowana transkrypcja za 1,42 dolara, ale znaczniki czasu różnią się o dziesiątki minut. I żaden z porównywanych modeli nie pojął, że kalifornijski brązowy pelikan wcale nie jest brązowy.

Czytaj →

Radar · 2025-10-29

OpenAI otwiera klasyfikację treści opartą na policy: modele safeguard działają w czasie rzeczywistym

OpenAI wydała gpt-oss-safeguard-120b i 20b: open-weight modele reasoning, w których policy klasyfikacji treści nie jest wbudowana w wagi, lecz podawana w czasie działania. Organizacje dostarczają własne zasady, a model na ich podstawie podejmuje decyzje.

Czytaj →

Radar · 2025-09-05

Modele halucynują z powodu sposobu trenowania i ewaluacji, nie dlatego, że są głupie

Tekst OpenAI z września 2025 dociera do korzenia halucynacji: modele uczą się grać w grę ewaluacji, a nie odpowiadać prawdziwie. Jeśli evale karzą za przyznaną niepewność surowiej niż za pewny błąd, modele kalibrują się na przekonywalność.

Czytaj →

Radar · 2025-08-27

OpenAI i Anthropic testowały wzajemnie swoje modele. Wyniki pouczające, metodologia nadal otwarta.

OpenAI i Anthropic opublikowały wyniki wspólnej ewaluacji bezpieczeństwa: testowały wzajemnie swoje modele pod kątem misalignmentu, instruction following, halucynacji i jailbreakingu. Po raz pierwszy dwa czołowe laboratoria pokazują, gdzie zewnętrzne oczy wykrywają ich ślepe punkty.

Czytaj →

Radar · 2025-07-02

Jack Morris płynie pod prąd: teoria informacji zamiast agentów i benchmarków

Latent Space profiluje Jacka Morrisa, doktoranta, który celowo nie pracuje nad agentami, benchmarkami ani forkami VS Code. Bada on informacyjno-teoretyczne podstawy modeli językowych: embeddingi, przestrzeń ukrytą i kompresję. To wywiad podcastowy i drogowskaz.

Czytaj →

Ze Słownika

Słownik

Ewaluacje i benchmarki — pomiar zamiast wrażeń

Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.

Czytaj →

Słownik

Niezawodność modeli — gdy ładna odpowiedź nie wystarcza

Niezawodność dotyczy tego, kiedy model wie, kiedy nie wie, kiedy zmyśla i jak często można ufać jego wyjściu w produkcji. Elegancki styl nie jest dowodem.

Czytaj →