Ewaluacje i benchmarki — pomiar zamiast wrażeń | Słownik

Co mierzysz

Eval to próba zamiany „czy to działa?” w powtarzalny pomiar. Dla modeli mogą to być wiedza, reasoning, halucynacje, bezpieczeństwo albo styl. Dla agentów dochodzą liczba kroków, sukces tool use, koszt, czas i powrót po błędzie.

Dlaczego benchmarki kłamią

Modele mogą nauczyć się benchmarku, dataset może być wąski, a jeden wynik rzadko opisuje realne zadanie. Jedna liczba jest wygodna, ale ukrywa dużo piekielnego brudu: rozkład błędów, wrażliwość na prompt, koszty i awarie na brzegach.

U agentów mierz pracę, nie odpowiedź

Model czatowy odpowiada i porównujesz tekst. Agent planuje, wywołuje narzędzia, zmienia pliki i dotyka workflow — wynik to ślad pracy, nie jedna odpowiedź. Dlatego „mamy 11 agentów” jest pustą metryką. Mierz:

Sukces zadania: czy cel naprawdę został osiągnięty, czy tylko wygląda na gotowy?
Interwencje człowieka: ile razy trzeba było sprowadzać agenta na właściwy tor.
Koszt i czas: tokeny, wywołania narzędzi i czas działania.
Incydenty bezpieczeństwa: niechciane zapisy, wyciek danych, przekroczenie uprawnień.
Jakość śladu: czy z logu da się zrozumieć, dlaczego agent wybrał kolejny krok?
Regresje: czy nowy model albo prompt psuje stare workflow?

Dobre evale są operacyjne

Dobry eval ma realistyczne dane, jasny scoring, baseline, powtarzalność i negatywne przypadki; przy agentach także log kroków. Nie powinien być akademickim leaderboardem, tylko powtarzalnym zestawem zadań z prawdziwego środowiska, uruchamianym przed zmianą modelu, narzędzi albo promptu. Jeśli nie widzisz, gdzie agent podjął złą decyzję, nie masz evala — masz wiersz w leaderboardzie.

Częste pułapki

Najgorszy eval to demo, które agent praktycznie zna na pamięć. Drugi najgorszy mierzy tylko końcowy tekst i ignoruje drogę: agent może przypadkiem trafić odpowiedź, spalić absurdalny koszt, ominąć granicę bezpieczeństwa albo stworzyć patch, którego nikt nie utrzyma.

Co zapamiętać

Benchmarki nie są proroctwem. Są mapą — zła mapa jest niebezpieczna, ale brak mapy to pewne siebie błądzenie. A agenta oceniaj po pracy, nie po slajdzie: wynik, koszt, interwencje, ryzyko i audytowalny ślad.