#Evals | Lilith AI

Z Radaru

Radar · 2026-05-29

Zvi čte system card Claude Opus 4.8 jako audit posunu rizik

Zvi Mowshowitz analyzuje Claude Opus 4.8 jako inkrementální upgrade s lepšími schopnostmi, bezpečností a novými otázkami kolem evals.

Číst →

Radar · 2026-05-27

ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice

IBM Research a Artificial Analysis vydali 27. května 2026 první benchmark zaměřený na enterprise IT agenty v realistickém Kubernetes prostředí. Nejlepší model (Claude Opus 4.7) dosáhl 47 %. Žádný frontier model nepřekonal 50 %.

Číst →

Radar · 2026-05-22

AI Snake Oil se ptá: opravdu agenti Googlu postavili OS za $916, nebo to bylo pečlivě nasvícené demo?

AI Snake Oil rozebírá tvrzení, že Google AI agents postavili operační systém za $916. Klíčové téma: agentická oznámení vyžadují jiný typ ověřování než chat benchmarky, protože velký cíl a pár kroků v demo prostředí je snadné nafouknout.

Číst →

Radar · 2026-05-11

SocialReasoning-Bench: agent úkol splní, ale pozici uživatele nezlepší

Microsoft Research popisuje SocialReasoning-Bench, benchmark zaměřený na to, zda AI agents opravdu jednají v nejlepším zájmu uživatele. Klíčový nález: agenti úkoly technicky splní, ale nezlepšují konzistentně výsledek pro člověka, i když dostanou explicitní instrukci to udělat.

Číst →

Ze Slovníku

Slovník

AI-assisted research — model jako výzkumný parťák

AI-assisted research používá modely k hledání hypotéz, psaní kódu, testování variant a čtení literatury. Není to automatická věda. Je to rychlejší výzkumná smyčka s novými způsoby, jak si nabít hubu.

Číst →

Slovník

Evaly a benchmarky — měření místo dojmologie

Benchmark není pravda vytesaná do kamene. Je to měřicí přístroj s chybami. Bez něj ale jen hádáš, jestli model nebo agent opravdu funguje.

Číst →

Slovník

Fine-tuning — skalpel, ne univerzální kladivo

Fine-tuning mění váhy modelu. Je silný, když máš data, evaly a jasný důvod. Je drahý omyl, když jen maskuje špatný prompt, chybějící RAG nebo nejasný proces.

Číst →

Slovník

Frontier model governance — kdo hlídá model před releasem

Frontier model governance řeší, kdo testuje nejsilnější modely před nasazením, podle jakých pravidel a s jakou mocí zasáhnout. Dobrovolný audit, system card a státní testování nejsou totéž.

Číst →

Slovník

Golden Dataset — pravda pro AI systém, ne zlatá klec

Golden Dataset je malá, pečlivě ověřená sada reálných případů, podle které poznáš, jestli AI systém opravdu funguje. U Skillmea AI ho používáme k ověření, jestli doporučování kurzů stojí na obsahu lekcí — ne na dojmech z marketingových popisů.

Číst →