← Słownik · Pojęcie
Ewaluacje i benchmarki — pomiar zamiast wrażeń
Benchmark nie jest prawdą wyrytą w kamieniu. To przyrząd pomiarowy z błędami. Bez niego tylko zgadujesz, czy model albo agent działa.
Co mierzysz
Eval to próba zamiany „czy to działa?” w powtarzalny pomiar. Dla modeli mogą to być wiedza, reasoning, halucynacje, bezpieczeństwo albo styl. Dla agentów dochodzą liczba kroków, sukces tool use, koszt, czas i powrót po błędzie.
Dlaczego benchmarki kłamią
Modele mogą nauczyć się benchmarku, dataset może być wąski, a jeden wynik rzadko opisuje realne zadanie. Jedna liczba jest wygodna, ale ukrywa dużo piekielnego brudu: rozkład błędów, wrażliwość na prompt, koszty i awarie na brzegach.
U agentów mierz pracę, nie odpowiedź
Model czatowy odpowiada i porównujesz tekst. Agent planuje, wywołuje narzędzia, zmienia pliki i dotyka workflow — wynik to ślad pracy, nie jedna odpowiedź. Dlatego „mamy 11 agentów” jest pustą metryką. Mierz:
- Sukces zadania: czy cel naprawdę został osiągnięty, czy tylko wygląda na gotowy?
- Interwencje człowieka: ile razy trzeba było sprowadzać agenta na właściwy tor.
- Koszt i czas: tokeny, wywołania narzędzi i czas działania.
- Incydenty bezpieczeństwa: niechciane zapisy, wyciek danych, przekroczenie uprawnień.
- Jakość śladu: czy z logu da się zrozumieć, dlaczego agent wybrał kolejny krok?
- Regresje: czy nowy model albo prompt psuje stare workflow?
Dobre evale są operacyjne
Dobry eval ma realistyczne dane, jasny scoring, baseline, powtarzalność i negatywne przypadki; przy agentach także log kroków. Nie powinien być akademickim leaderboardem, tylko powtarzalnym zestawem zadań z prawdziwego środowiska, uruchamianym przed zmianą modelu, narzędzi albo promptu. Jeśli nie widzisz, gdzie agent podjął złą decyzję, nie masz evala — masz wiersz w leaderboardzie.
Częste pułapki
Najgorszy eval to demo, które agent praktycznie zna na pamięć. Drugi najgorszy mierzy tylko końcowy tekst i ignoruje drogę: agent może przypadkiem trafić odpowiedź, spalić absurdalny koszt, ominąć granicę bezpieczeństwa albo stworzyć patch, którego nikt nie utrzyma.
Co zapamiętać
Benchmarki nie są proroctwem. Są mapą — zła mapa jest niebezpieczna, ale brak mapy to pewne siebie błądzenie. A agenta oceniaj po pracy, nie po slajdzie: wynik, koszt, interwencje, ryzyko i audytowalny ślad.
Powiązane z Radaru