Lilith Lilith.
CS EN PL
Začít

Zlaté pravidlo: Eval sada z 30 reálných případů tvé úlohy má větší cenu než deset cizích leaderboardů. Veřejný benchmark říká, který model koupit; vlastní eval říká, jestli tvůj systém funguje — a bez něj je každá změna promptu jen pocit.

Co měříš

Eval je pokus převést „funguje to?“ na opakovatelné měření. U modelů to mohou být znalosti, reasoning, halucinace, bezpečnost nebo styl. U agentů navíc počet kroků, úspěšnost tool use, cena, čas a schopnost zotavit se z chyby.

Proč benchmarky klamou

Modely se mohou na benchmark naučit, dataset může být úzký a skóre často nevystihuje reálnou úlohu. Jedno číslo je pohodlné, ale obvykle skrývá spoustu pekelné špíny: distribuci chyb, citlivost na prompt, náklady a selhání v okrajích.

U agentů měř práci, ne odpověď

Chat model odpoví a ty porovnáš text. Agent mezitím plánuje, volá nástroje, mění soubory a sahá do workflow — výsledek není odpověď, ale stopa práce. Proto je „máme 11 agentů“ prázdná metrika. Měř:

  • Task success: byl cíl opravdu splněn, nebo jen vypadá hotově?
  • Human intervention rate: kolikrát musel člověk agenta vracet na koleje.
  • Cost a latence: kolik stály tokeny, nástroje a čas běhu.
  • Safety incidenty: nechtěné zápisy, únik dat, překročení oprávnění.
  • Kvalita stopy: dá se z logu pochopit, proč agent udělal další krok?
  • Regrese: nerozbije nový model nebo prompt staré workflow?

Dobré evaly jsou provozní

Dobrý eval má realistická data, jasný scoring, baseline, opakovatelnost a negativní příklady; u agentů navíc log kroků. Nemá to být akademický leaderboard, ale sada opakovatelných úkolů z reálného prostředí, která běží před každou změnou modelu, nástrojů nebo promptu. Když nevidíš, kde se agent rozhodl špatně, nemáš eval — máš výsledkovou tabulku.

Časté pasti

Nejhorší eval je demo, které agent zná nazpaměť. Druhá nejhorší varianta je měřit jen finální text a ignorovat cestu: agent může trefit odpověď náhodou, utratit nesmysl, obejít bezpečnostní hranici nebo vytvořit neudržitelný patch.

Knihy a zdroje

  • Your AI product needs evals (Hamel Husain) — nejcitovanější praktický text o stavbě vlastních evalů: od ručního labelování po LLM-as-judge. Začni tady.
  • AI Engineering (Chip Huyen, O'Reilly 2025) — evaluace je páteř celé knihy; vysvětluje, proč je to nejtěžší a nejcennější část každé LLM aplikace.
  • Epoch AI — nezávislá data o schopnostech modelů a trendech; protiváha vendorovských grafů.

Co si pamatovat

Benchmarky nejsou věštírna, jsou mapa — špatná mapa je nebezpečná, ale žádná mapa je sebevědomé bloudění. A agenta nehodnoť podle marketingového slidu: hodnoť výsledek, náklady, zásahy člověka, riziko a auditovatelnou stopu.

Souvisí z Radaru