← Slovník · Pojem
Evaly a benchmarky — měření místo dojmologie
Benchmark není pravda vytesaná do kamene. Je to měřicí přístroj s chybami. Bez něj ale jen hádáš, jestli model nebo agent opravdu funguje.
Zlaté pravidlo: Eval sada z 30 reálných případů tvé úlohy má větší cenu než deset cizích leaderboardů. Veřejný benchmark říká, který model koupit; vlastní eval říká, jestli tvůj systém funguje — a bez něj je každá změna promptu jen pocit.
Co měříš
Eval je pokus převést „funguje to?“ na opakovatelné měření. U modelů to mohou být znalosti, reasoning, halucinace, bezpečnost nebo styl. U agentů navíc počet kroků, úspěšnost tool use, cena, čas a schopnost zotavit se z chyby.
Proč benchmarky klamou
Modely se mohou na benchmark naučit, dataset může být úzký a skóre často nevystihuje reálnou úlohu. Jedno číslo je pohodlné, ale obvykle skrývá spoustu pekelné špíny: distribuci chyb, citlivost na prompt, náklady a selhání v okrajích.
U agentů měř práci, ne odpověď
Chat model odpoví a ty porovnáš text. Agent mezitím plánuje, volá nástroje, mění soubory a sahá do workflow — výsledek není odpověď, ale stopa práce. Proto je „máme 11 agentů“ prázdná metrika. Měř:
- Task success: byl cíl opravdu splněn, nebo jen vypadá hotově?
- Human intervention rate: kolikrát musel člověk agenta vracet na koleje.
- Cost a latence: kolik stály tokeny, nástroje a čas běhu.
- Safety incidenty: nechtěné zápisy, únik dat, překročení oprávnění.
- Kvalita stopy: dá se z logu pochopit, proč agent udělal další krok?
- Regrese: nerozbije nový model nebo prompt staré workflow?
Dobré evaly jsou provozní
Dobrý eval má realistická data, jasný scoring, baseline, opakovatelnost a negativní příklady; u agentů navíc log kroků. Nemá to být akademický leaderboard, ale sada opakovatelných úkolů z reálného prostředí, která běží před každou změnou modelu, nástrojů nebo promptu. Když nevidíš, kde se agent rozhodl špatně, nemáš eval — máš výsledkovou tabulku.
Časté pasti
Nejhorší eval je demo, které agent zná nazpaměť. Druhá nejhorší varianta je měřit jen finální text a ignorovat cestu: agent může trefit odpověď náhodou, utratit nesmysl, obejít bezpečnostní hranici nebo vytvořit neudržitelný patch.
Knihy a zdroje
- Your AI product needs evals (Hamel Husain) — nejcitovanější praktický text o stavbě vlastních evalů: od ručního labelování po LLM-as-judge. Začni tady.
- AI Engineering (Chip Huyen, O'Reilly 2025) — evaluace je páteř celé knihy; vysvětluje, proč je to nejtěžší a nejcennější část každé LLM aplikace.
- Epoch AI — nezávislá data o schopnostech modelů a trendech; protiváha vendorovských grafů.
Co si pamatovat
Benchmarky nejsou věštírna, jsou mapa — špatná mapa je nebezpečná, ale žádná mapa je sebevědomé bloudění. A agenta nehodnoť podle marketingového slidu: hodnoť výsledek, náklady, zásahy člověka, riziko a auditovatelnou stopu.
Souvisí z Radaru