Etykieta
#benchmarks
Z Radaru
Radar · 2026-06-15
Claude Opus 4.8 sprzedaje osąd, nie kolejny benchmark
Anthropic wydał Claude Opus 4.8 w tej samej standardowej cenie co Opus 4.7, z naciskiem na coding, agentic tasks i dłuższą pracę. Ważniejsza od tabeli benchmarków jest obietnica modelu, który częściej mówi, kiedy nie jest pewien.
Czytaj →Radar · 2026-05-27
ITBench-AA: frontier models osiągają poniżej 50 % w diagnostyce Kubernetes SRE
IBM Research i Artificial Analysis opublikowali 27 maja 2026 pierwszy benchmark dla enterprise IT agents w realistycznym środowisku Kubernetes. Najlepszy model (Claude Opus 4.7) osiągnął 47 %. Żaden frontier model nie przekroczył 50 %.
Czytaj →Radar · 2026-05-06
SubQ review: świetne liczby, ale na razie test wiary w benchmarki
Fello AI recenzuje twierdzenia SubQ: okno kontekstu 12M tokenów, 52x szybszy prefill niż FlashAttention na 1M tokenach i pozycjonowanie benchmarków blisko klasy frontier. Liczby są wystarczająco uderzające, by wymagały niezależnej weryfikacji przed zmianą decyzji architektonicznych.
Czytaj →Radar · 2025-12-16
FrontierScience testuje AI pod kątem rozumowania naukowego, ale benchmark własnego laboratorium potrzebuje niezależnego audytu
OpenAI przedstawia FrontierScience: benchmark zadań rozumowania naukowego z fizyki, chemii i biologii, skupiony na procesach rozumowania, a nie tylko na pamięci faktów.
Czytaj →Radar · 2025-11-18
Gemini 3 Pro w praktyce: niezła transkrypcja, błędne znaczniki czasu i żaden model nie zna pelikana
Simon Willison przetestował Gemini 3 Pro na trójgodzinnym nagraniu z rady miejskiej i na przejrzanym benchmarku z pelikanem. Wynik: ustrukturyzowana transkrypcja za 1,42 dolara, ale znaczniki czasu różnią się o dziesiątki minut. I żaden z porównywanych modeli nie pojął, że kalifornijski brązowy pelikan wcale nie jest brązowy.
Czytaj →Radar · 2025-10-29
OpenAI otwiera klasyfikację treści opartą na policy: modele safeguard działają w czasie rzeczywistym
OpenAI wydała gpt-oss-safeguard-120b i 20b: open-weight modele reasoning, w których policy klasyfikacji treści nie jest wbudowana w wagi, lecz podawana w czasie działania. Organizacje dostarczają własne zasady, a model na ich podstawie podejmuje decyzje.
Czytaj →Radar · 2025-09-05
Modele halucynują z powodu sposobu trenowania i ewaluacji, nie dlatego, że są głupie
Tekst OpenAI z września 2025 dociera do korzenia halucynacji: modele uczą się grać w grę ewaluacji, a nie odpowiadać prawdziwie. Jeśli evale karzą za przyznaną niepewność surowiej niż za pewny błąd, modele kalibrują się na przekonywalność.
Czytaj →Radar · 2025-08-27
OpenAI i Anthropic testowały wzajemnie swoje modele. Wyniki pouczające, metodologia nadal otwarta.
OpenAI i Anthropic opublikowały wyniki wspólnej ewaluacji bezpieczeństwa: testowały wzajemnie swoje modele pod kątem misalignmentu, instruction following, halucynacji i jailbreakingu. Po raz pierwszy dwa czołowe laboratoria pokazują, gdzie zewnętrzne oczy wykrywają ich ślepe punkty.
Czytaj →Radar · 2025-07-02
Jack Morris płynie pod prąd: teoria informacji zamiast agentów i benchmarków
Latent Space profiluje Jacka Morrisa, doktoranta, który celowo nie pracuje nad agentami, benchmarkami ani forkami VS Code. Bada on informacyjno-teoretyczne podstawy modeli językowych: embeddingi, przestrzeń ukrytą i kompresję. To wywiad podcastowy i drogowskaz.
Czytaj →Ze Słownika
Słownik
Ewaluacje i benchmarki — pomiar zamiast wrażeń
Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.
Czytaj →Słownik
Niezawodność modeli — gdy ładna odpowiedź nie wystarcza
Niezawodność dotyczy tego, kiedy model wie, kiedy nie wie, kiedy zmyśla i jak często można ufać jego wyjściu w produkcji. Elegancki styl nie jest dowodem.
Czytaj →