#benchmarks | Lilith AI

Z Radaru

Radar · 2026-06-15

Claude Opus 4.8 prodává spíš úsudek než další benchmark

Anthropic vydal Claude Opus 4.8 se stejnou cenou jako Opus 4.7 a s důrazem na coding, agentic tasks a delší práci. Důležitější než tabulka benchmarků je ale posun k modelu, který má častěji říkat, kdy si není jistý.

Číst →

Radar · 2026-05-27

ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice

IBM Research a Artificial Analysis vydali 27. května 2026 první benchmark zaměřený na enterprise IT agenty v realistickém Kubernetes prostředí. Nejlepší model (Claude Opus 4.7) dosáhl 47 %. Žádný frontier model nepřekonal 50 %.

Číst →

Radar · 2026-05-06

SubQ review: skvělá čísla, zatím hlavně test víry v benchmarky

Recenze SubQ skládá dohromady nejhlasitější claimy: 12M tokenů kontextu, rychlejší prefill, nižší náklady a konkurenceschopné benchmarky. Přesně proto je potřeba oddělit technickou možnost od ověřené produkční reality.

Číst →

Radar · 2025-12-16

FrontierScience testuje AI na vědeckém reasoning, ale benchmark vlastní laboratoře potřebuje nezávislý audit

OpenAI představuje FrontierScience: benchmark pro vědecké reasoning úlohy z fyziky, chemie a biologie, zaměřený na procesy uvažování, ne jen znalost faktů.

Číst →

Radar · 2025-11-18

Gemini 3 Pro v praxi: dobrá transkripce, ale timestamps lžou a nikdo nezná pelikána

Simon Willison testoval Gemini 3 Pro na tříhodinovém záznamu z obecního zastupitelství a na přepracovaném pelican benchmarku. Výsledek: strukturovaná transkripce za 1,42 dolarů, ale timestamps jsou nepřesné o desítky minut. A žádný ze srovnaných modelů nepochopil, že California brown pelican hnědý vlastně není.

Číst →

Radar · 2025-10-29

OpenAI otevírá policy klasifikaci: safeguard modely přijímají pravidla za běhu

OpenAI zveřejnila gpt-oss-safeguard-120b a 20b: open-weight reasoning modely, kde policy klasifikace obsahu není napálená do vah, ale přichází jako runtime vstup. Organizace si mohou dodat vlastní pravidla a model rozhoduje podle nich.

Číst →

Radar · 2025-09-05

Modely halucinují proto, jak je trénujeme a hodnotíme, ne proto, že jsou hloupé

OpenAI v textu z září 2025 jde ke kořeni halucinací: modely se naučí hrát evaluaci, ne odpovídat pravdivě. Pokud evaly trestají přiznanou nejistotu přísněji než sebevědomý omyl, model se kalibruje na přesvědčivost.

Číst →

Radar · 2025-08-27

OpenAI a Anthropic testovaly vzájemně své modely. Výsledky jsou poučné, metodika zatím otevřená.

OpenAI a Anthropic zveřejnily výsledky společné safety evaluace svých modelů: testovaly misalignment, instruction following, halucinace a jailbreaky navzájem na modelech druhé strany. Poprvé dvě přední laboratoře ukazují, kde jim slepá místa nachází cizí oči.

Číst →

Radar · 2025-07-02

Jack Morris jde proti proudu: informační teorie, ne agenti ani benchmarky

Latent Space profiluje Jacka Morrise, PhD studenta, který záměrně nepracuje na agentech, benchmarcích ani VS Code forkách. Místo toho zkoumá informačně-teoretické základy jazykových modelů: embeddingy, latentní prostor a kompresi. Jde o podcast interview a rozcestník.

Číst →

Ze Slovníku

Slovník

Evaly a benchmarky — měření místo dojmologie

Benchmark není pravda vytesaná do kamene. Je to měřicí přístroj s chybami. Bez něj ale jen hádáš, jestli model nebo agent opravdu funguje.

Číst →

Slovník

Spolehlivost modelů — když nestačí hezká odpověď

Spolehlivost je o tom, kdy model ví, kdy neví, kdy si vymýšlí a jak často se dá jeho výstupu věřit v provozu. Elegantní formulace není důkaz.

Číst →