← Knihovna · foundations
Evaly a benchmarky — měření místo dojmologie
Benchmark není pravda vytesaná do kamene. Je to měřicí přístroj s chybami. Bez něj ale jen hádáš, jestli model nebo agent opravdu funguje.
Co měříš
Eval je pokus převést „funguje to?“ na opakovatelné měření. U modelů to mohou být znalosti, reasoning, halucinace, bezpečnost nebo styl. U agentů navíc počet kroků, úspěšnost tool use, cena, čas a schopnost zotavit se z chyby.
Proč benchmarky klamou
Modely se mohou na benchmark naučit, dataset může být úzký a skóre často nevystihuje reálnou úlohu. Jedno číslo je pohodlné, ale obvykle skrývá spoustu pekelné špíny: distribuci chyb, citlivost na prompt, náklady a selhání v okrajích.
Dobrý eval
Dobrý eval má realistická data, jasný scoring, baseline, opakovatelnost a negativní příklady. U agentů navíc log kroků. Když nevidíš, kde se agent rozhodl špatně, nemáš eval — máš jen výsledkovou tabulku.
Co si pamatovat
Benchmarky nejsou věštírna. Jsou mapa. Špatná mapa je nebezpečná, ale žádná mapa je jen sebevědomé bloudění.