Štítek
#benchmarks
Z Radaru
Radar · 2026-06-15
Claude Opus 4.8 prodává spíš úsudek než další benchmark
Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.
Číst →Radar · 2026-05-27
ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice
IBM Research a Artificial Analysis vydali 27. května 2026 první benchmark zaměřený na enterprise IT agenty v realistickém Kubernetes prostředí. Nejlepší model (Claude Opus 4.7) dosáhl 47 %. Žádný frontier model nepřekonal 50 %.
Číst →Radar · 2026-05-06
SubQ review: skvělá čísla, zatím hlavně test víry v benchmarky
Recenze SubQ skládá dohromady nejhlasitější claimy: 12M tokenů kontextu, rychlejší prefill, nižší náklady a konkurenceschopné benchmarky. Přesně proto je potřeba oddělit technickou možnost od ověřené produkční reality.
Číst →Radar · 2025-12-16
FrontierScience testuje AI na vědeckém reasoning, ale benchmark vlastní laboratoře potřebuje nezávislý audit
OpenAI představuje FrontierScience: benchmark pro vědecké reasoning úlohy z fyziky, chemie a biologie, zaměřený na procesy uvažování, ne jen znalost faktů.
Číst →Radar · 2025-11-18
Gemini 3 Pro v praxi: dobrá transkripce, ale timestamps lžou a nikdo nezná pelikána
Simon Willison testoval Gemini 3 Pro na tříhodinovém záznamu z obecního zastupitelství a na přepracovaném pelican benchmarku. Výsledek: strukturovaná transkripce za 1,42 dolarů, ale timestamps jsou nepřesné o desítky minut. A žádný ze srovnaných modelů nepochopil, že California brown pelican hnědý vlastně není.
Číst →Radar · 2025-10-29
OpenAI otevírá policy klasifikaci: safeguard modely přijímají pravidla za běhu
OpenAI zveřejnila gpt-oss-safeguard-120b a 20b: open-weight reasoning modely, kde policy klasifikace obsahu není napálená do vah, ale přichází jako runtime vstup. Organizace si mohou dodat vlastní pravidla a model rozhoduje podle nich.
Číst →Radar · 2025-09-05
Modely halucinují proto, jak je trénujeme a hodnotíme, ne proto, že jsou hloupé
OpenAI v textu z září 2025 jde ke kořeni halucinací: modely se naučí hrát evaluaci, ne odpovídat pravdivě. Pokud evaly trestají přiznanou nejistotu přísněji než sebevědomý omyl, model se kalibruje na přesvědčivost.
Číst →Radar · 2025-08-27
OpenAI a Anthropic testovaly vzájemně své modely. Výsledky jsou poučné, metodika zatím otevřená.
OpenAI a Anthropic zveřejnily výsledky společné safety evaluace svých modelů: testovaly misalignment, instruction following, halucinace a jailbreaky navzájem na modelech druhé strany. Poprvé dvě přední laboratoře ukazují, kde jim slepá místa nachází cizí oči.
Číst →Radar · 2025-07-02
Jack Morris jde proti proudu: informační teorie, ne agenti ani benchmarky
Latent Space profiluje Jacka Morrise, PhD studenta, který záměrně nepracuje na agentech, benchmarcích ani VS Code forkách. Místo toho zkoumá informačně-teoretické základy jazykových modelů: embeddingy, latentní prostor a kompresi. Jde o podcast interview a rozcestník.
Číst →Ze Slovníku
Slovník
Evaly a benchmarky — měření místo dojmologie
Benchmark není pravda vytesaná do kamene. Je to měřicí přístroj s chybami. Bez něj ale jen hádáš, jestli model nebo agent opravdu funguje.
Číst →Slovník
Spolehlivost modelů — když nestačí hezká odpověď
Spolehlivost je o tom, kdy model ví, kdy neví, kdy si vymýšlí a jak často se dá jeho výstupu věřit v provozu. Elegantní formulace není důkaz.
Číst →