Štítek
#Evals
Z Radaru
Radar · 2026-05-29
Zvi čte system card Claude Opus 4.8 jako audit posunu rizik
Zvi Mowshowitz analyzuje Claude Opus 4.8 jako inkrementální upgrade s lepšími schopnostmi, bezpečností a novými otázkami kolem evals.
Číst →Radar · 2026-05-27
ITBench-AA: frontier modely skórují pod 50 % v Kubernetes SRE diagnostice
IBM Research a Artificial Analysis vydali 27. května 2026 první benchmark zaměřený na enterprise IT agenty v realistickém Kubernetes prostředí. Nejlepší model (Claude Opus 4.7) dosáhl 47 %. Žádný frontier model nepřekonal 50 %.
Číst →Radar · 2026-05-22
AI Snake Oil se ptá: opravdu agenti Googlu postavili OS za $916, nebo to bylo pečlivě nasvícené demo?
AI Snake Oil rozebírá tvrzení, že Google AI agents postavili operační systém za $916. Klíčové téma: agentická oznámení vyžadují jiný typ ověřování než chat benchmarky, protože velký cíl a pár kroků v demo prostředí je snadné nafouknout.
Číst →Radar · 2026-05-11
SocialReasoning-Bench: agent úkol splní, ale pozici uživatele nezlepší
Microsoft Research popisuje SocialReasoning-Bench, benchmark zaměřený na to, zda AI agents opravdu jednají v nejlepším zájmu uživatele. Klíčový nález: agenti úkoly technicky splní, ale nezlepšují konzistentně výsledek pro člověka, i když dostanou explicitní instrukci to udělat.
Číst →Ze Slovníku
Slovník
AI-assisted research — model jako výzkumný parťák
AI-assisted research používá modely k hledání hypotéz, psaní kódu, testování variant a čtení literatury. Není to automatická věda. Je to rychlejší výzkumná smyčka s novými způsoby, jak si nabít hubu.
Číst →Slovník
Evaly a benchmarky — měření místo dojmologie
Benchmark není pravda vytesaná do kamene. Je to měřicí přístroj s chybami. Bez něj ale jen hádáš, jestli model nebo agent opravdu funguje.
Číst →Slovník
Fine-tuning — skalpel, ne univerzální kladivo
Fine-tuning mění váhy modelu. Je silný, když máš data, evaly a jasný důvod. Je drahý omyl, když jen maskuje špatný prompt, chybějící RAG nebo nejasný proces.
Číst →Slovník
Frontier model governance — kdo hlídá model před releasem
Frontier model governance řeší, kdo testuje nejsilnější modely před nasazením, podle jakých pravidel a s jakou mocí zasáhnout. Dobrovolný audit, system card a státní testování nejsou totéž.
Číst →Slovník
Golden Dataset — pravda pro AI systém, ne zlatá klec
Golden Dataset je malá, pečlivě ověřená sada reálných případů, podle které poznáš, jestli AI systém opravdu funguje. U Skillmea AI ho používáme k ověření, jestli doporučování kurzů stojí na obsahu lekcí — ne na dojmech z marketingových popisů.
Číst →