← Biblioteka · foundations
Ewaluacje i benchmarki — pomiar zamiast wrażeń
Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.
Co mierzysz
Eval to próba zamiany „czy to działa?” w powtarzalny pomiar. Dla modeli mogą to być wiedza, reasoning, halucynacje, bezpieczeństwo albo styl. Dla agentów dochodzą liczba kroków, sukces tool use, koszt, czas i powrót po błędzie.
Dlaczego benchmarki kłamią
Modele mogą nauczyć się benchmarku, dataset może być wąski, a jeden wynik rzadko opisuje realne zadanie. Jedna liczba jest wygodna, ale ukrywa dużo piekielnego brudu: rozkład błędów, wrażliwość na prompt, koszty i awarie na brzegach.
Dobry eval
Dobry eval ma realistyczne dane, jasny scoring, baseline, powtarzalność i negatywne przypadki. Przy agentach potrzebny jest też log kroków. Jeśli nie widzisz, gdzie agent podjął złą decyzję, nie masz evala — masz tylko wiersz w leaderboardzie.
Co zapamiętać
Benchmarki nie są proroctwem. Są mapą. Zła mapa jest niebezpieczna, ale brak mapy to tylko pewne siebie błądzenie.