← Przewodniki · Przewodnik
Golden Dataset — punkt odniesienia dla AI, nie złota klatka
Golden Dataset to mały, starannie sprawdzony zestaw realnych przypadków, dzięki któremu widać, czy system AI naprawdę działa. W Skillmea AI używamy go do oceny rekomendacji kursów na podstawie treści lekcji, nie opisów marketingowych.
Zasada: Golden Dataset to nie „dużo danych”. To mniejszy zestaw przypadków, którym ufasz bardziej niż modelowi. Bez niego nie mierzysz jakości — oceniasz tylko, czy odpowiedź brzmi mądrze.
Co to jest
Golden Dataset to kuratorski, wersjonowany i możliwy do audytu zestaw realnych wejść oraz oczekiwanych wyników. Służy jako punkt odniesienia do oceny konkretnego systemu AI. Zawiera zwykle wejście, poprawny wynik albo etykietę, uzasadnienie, metadane, status przeglądu i informacje o wersjach.
Nie musi być ogromny. Ma być wiarygodny. To bardziej skalibrowany przyrząd pomiarowy niż magazyn danych: magazyn potrzebuje wolumenu, przyrząd potrzebuje precyzji.
Dlaczego Skillmea AI go potrzebuje
Rekomendowanie kursów nie może opierać się tylko na tytułach i marketingowych opisach. Użytkownik przychodzi z konkretnym celem: nauczyć się AI w marketingu, używać Excela w księgowości, zbudować pierwszy workflow jako junior developer. System musi wiedzieć, czego kurs naprawdę uczy, dla kogo jest, jaki ma poziom i jakie zakłada podstawy.
Te informacje często siedzą w transkrypcjach lekcji, nie w krótkim opisie kursu. Dlatego Golden Dataset w Skillmea AI powstaje z dowodów z lekcji: ekstrakcja metadanych pedagogicznych, walidacja, ręczny przegląd niepewnych przypadków i dopiero potem zatwierdzone profile kursów jako dane referencyjne.
Co wyciągamy z kursu
Użyteczny profil kursu obejmuje efekty uczenia, role docelowe, tagi tematyczne, wymagania wstępne, trudność, poziom Blooma, cytaty i sygnały pewności. Ta pewność nie może znaczyć „modelowi się wydaje”. Powinna wynikać z kontroli: poprawności schematu, zgodności dowodów, kompletności pól i konfliktów między lekcjami.
Proces
- Wybieramy kursy powiązane z realnymi scenariuszami ewaluacji.
- Dzielimy transkrypcje lekcji na ponumerowane fragmenty dowodowe.
- Wyciągamy metadane z lekcji.
- Agregujemy profil kursu.
- Walidujemy schemat, dowody i konflikty.
- Niepewne przypadki trafiają do człowieka.
- Do Golden Datasetu trafiają tylko zatwierdzone rekordy.
Surowy wynik modelu nie jest złotem. To ruda. Czasem cenna, czasem zwykły żużel.
Jak to poprawia rekomendacje
Dataset musi zasilać evale: porównania przed i po zmianie, recall, precision, dopasowanie do roli, dopasowanie do celu i testy regresji. Jeśli poprawa jednego scenariusza psuje inny, chcemy zobaczyć to wcześniej niż użytkownik.
Źródła
- A Practical Guide for Evaluating LLMs and LLM-Reliant Systems — reprezentatywne dataset’y, sensowne metryki i praktyczna metodologia ewaluacji.
- A Survey on Evaluation of Large Language Models — szeroka mapa metod oceny LLM.
- Benchmark Data Contamination of Large Language Models: A Survey — dlaczego publiczne benchmarki mogą zawyżać realne wyniki.
- Your AI product needs evals — praktyczne podejście do evali w produkcie AI.
- Data-Centric AI — dlaczego poprawa danych i etykiet często daje więcej niż ciągła wymiana modeli.
Co zapamiętać
Golden Dataset trzyma produkt AI przy ziemi. W Skillmea AI oznacza to rekomendacje oparte na realnej treści lekcji i pomiar tego, czy system rozumie, czego kurs uczy oraz komu pomaga. Bez tego stroisz system na wyczucie. Z tym przynajmniej masz twardy punkt odniesienia, kiedy coś elegancko się zepsuje.