Golden Dataset — pravda pro AI systém, ne zlatá klec | Průvodci

Zlaté pravidlo: Golden Dataset není „hodně dat“. Je to menší sada případů, kterým věříš víc než modelu. Když nemáš takovou sadu, neměříš kvalitu AI systému — jen sleduješ, jestli odpověď vypadá chytře.

Proč to vůbec řešíme

V AI produktech se dá strašně snadno zaměnit pokrok za lepší pocit. Změníš prompt, vyměníš model, přidáš embeddingy, upravíš doporučovací pravidla — a najednou to na třech ukázkách vypadá líp. Pekelně pohodlné. A často úplně k ničemu.

Golden Dataset je protiváha téhle dojmologii. Je to referenční sada reálných vstupů a ručně zkontrolovaných očekávaných výstupů, ke které se systém vrací pokaždé, když se mění model, prompt, retrieval, scoring nebo data. Neříká „AI je dobrá obecně“. Říká mnohem užitečnější věc: „na těchto reálných případech, které reprezentují náš produkt, se zlepšila / zhoršila / rozbila“.

U Skillmea AI je to zvlášť důležité, protože doporučování kurzů nemá být katalogový trik. Uživatel nepřichází pro nejhezčí název kurzu. Přichází s cílem: „chci se naučit používat AI v marketingu“, „potřebuju Excel pro účetnictví“, „jsem junior vývojář a chci první použitelný workflow“. Aby systém doporučoval dobře, musí vědět, co kurz skutečně učí, pro koho je, jaké předpoklady má a jak hluboko jde. A to často neleží v krátkém popisu kurzu, ale až v přepisech lekcí.

Golden Dataset jako pevný měřicí bod mezi reálnými případy, ověřenými štítky a opakovaným vyhodnocením AI systému

Co je Golden Dataset

Golden Dataset je kurátorovaná, verzovaná a auditovatelná sada příkladů, která slouží jako „ground truth“ pro konkrétní AI systém. V praxi obsahuje:

reálné vstupy — dotazy, scénáře, kurzy, lekce, dokumenty nebo uživatelské situace;
očekávané výstupy — správné doporučení, správný štítek, správná odpověď, správné rozhodnutí;
důkazy — proč je výstup správně, ideálně s odkazem na zdrojový text;
metadata — obtížnost, role, témata, jazyk, rizika, verze promptu/modelu/dat;
review stav — kdo nebo co výsledek ověřilo, co je nejisté, co čeká na ruční kontrolu.

To slovo „golden“ neznamená, že dataset je dokonalý. Znamená, že je dostatečně důvěryhodný na to, aby podle něj šlo rozhodovat. A hlavně: je lepší než pocit product ownera, který právě viděl povedené demo. Ano, i když je ten product owner sympatický. 😈

Čím se liší od obyčejného datasetu

Obyčejný dataset může být velký, špinavý, automaticky nasbíraný a užitečný pro trénování nebo indexaci. Golden Dataset je menší, dražší na kus a mnohem přísnější. Není primárně na to, aby model „nakrmil“. Je na to, aby systém měřil.

Rozdíl je podobný jako mezi skladem materiálu a kalibrovaným měřidlem. Sklad potřebuje objem. Měřidlo potřebuje přesnost, stabilitu a známou chybu. Když si měřidlo zamažeš, všechno další vypadá vědecky, ale ve skutečnosti jen vyrábíš grafy z bahna.

U LLM aplikací je to ještě citlivější, protože veřejné benchmarky bývají daleko od konkrétního produktu. Studie o evaluaci LLM systémů opakovaně varují, že reálné použití vyžaduje reprezentativní data, smysluplné metriky a metodiku zapojenou do vývoje, ne jednorázový leaderboard. A u veřejných benchmarků navíc hrozí kontaminace: model mohl testovací úlohy nebo jejich varianty vidět během tréninku, takže skóre měří i paměť, ne jen schopnost.

Skillmea AI případ: proč nestačí název kurzu

Ve vzdělávacím katalogu je největší past ta, že metadata vypadají hotově. Kurz má název, popis, kategorii, možná štítky. Jenže doporučovač nad tím často nepozná zásadní rozdíly:

učí kurz teorii, nebo praktický workflow?
je pro začátečníka, nebo pro někoho, kdo už nástroj používá?
předpokládá Excel, Python, účetnictví, marketingovou praxi?
je výsledek „rozumím pojmům“, nebo „umím udělat konkrétní výstup“?
hodí se pro roli uživatele, nebo jen tematicky zní podobně?

Proto ve Skillmea AI Golden Dataset nevzniká z marketingových popisů. Vzniká z přepisů lekcí. AI čte lekce, vytahuje pedagogická metadata a každé tvrzení musí opřít o konkrétní důkaz v textu. Teprve potom z toho vzniká záznam kurzu vhodný pro doporučování.

Pipeline: přepisy lekcí → extrakce pedagogických metadat → validace důkazů → ruční kontrola → Golden Dataset → měření doporučovače

Co z kurzu extrahujeme

Pro každý kurz chceme strukturovaný profil, ne literární dojem. Typicky:

Learning outcomes: co bude student po kurzu umět, ideálně konkrétně a akčně.
Target roles: pro jaké role kurz dává smysl — marketér, vývojář, analytik, manažer, účetní…
Topic tags: stabilní tematické štítky, které pomáhají vyhledávání a doporučování.
Prerequisites: co musí student znát předem; zvlášť rozlišujeme „není potřeba“, „v textu není důkaz“ a „je doloženo“.
Difficulty: začátečník, intermediate, advanced, expert, mixed nebo unclear.
Bloom level: jestli kurz vede spíš k zapamatování, pochopení, aplikaci, analýze, hodnocení nebo tvorbě.
Citations: odkazy na části lekcí, ze kterých se tvrzení odvodilo.
Confidence: ne jako „model si věří“, ale jako provozní signály — prošlo schema, sedí důkazy, nejsou rozpory mezi lekcemi, pole jsou vyplněná.

Tohle je důležité: dobrý Golden Dataset není jen seznam správných odpovědí. Je to datový produkt s původem, verzí a stopou. Když za měsíc vyměníš model nebo změníš prompt, potřebuješ vědět, jestli se změnil svět, dataset, nebo jen chování systému.

Jak vzniká jeden záznam

Vybereme kurz z prioritní fronty. První vlna nejsou náhodné oblíbené kurzy, ale kurzy napojené na eval scénáře. Chceme hned měřit, jestli nová metadata pomáhají konkrétním problémům doporučovače.
Rozsekáme přepisy lekcí na malé očíslované úseky. Ne kvůli kráse, ale kvůli ověřitelnosti. Každý výrok má mít odkud přijít.
Extrahujeme metadata po lekcích. Model nesmí jen shrnout kurz; musí vypsat výsledky učení, obtížnost, předpoklady, role a důkazy.
Agregujeme kurz. Z lekcí vznikne kurzový profil. Když se lekce rozcházejí, kurz může skončit jako mixed nebo potřebovat review.
Validujeme. Kontroluje se schema, pokrytí polí, shoda citací se zdrojovým textem a rozpory.
Human-in-the-loop rozhodne. Výsledek může být schválen, schválen s úpravami, vrácen k přepracování nebo vyřazen.
Teprve schválené záznamy jdou do Golden Datasetu. Surový výstup modelu není zlato. Je to ruda. Někdy užitečná, někdy hlušina.

Proč neudělat všechno automaticky

Protože automatická extrakce bez review by jen přesunula problém z doporučovače do datasetu. A špatný Golden Dataset je horší než žádný: dodá falešný pocit přesnosti a systém se začne optimalizovat na chybnou pravdu.

Rozumný kompromis je poloautomatický proces. Model udělá těžkou práci — přečte přepisy, navrhne metadata, vytáhne důkazy. Validátor označí podezřelé věci. Člověk řeší jen místa, kde jde o rozhodnutí: nejasná obtížnost, slabý důkaz, konflikt mezi lekcemi, citlivé nebo subjektivní zařazení.

To je přesně princip data-centric AI: místo nekonečného ladění modelu zlepšuješ data, labely, důkazy a proces. U menších katalogů a specializovaných systémů to často přinese víc než další výměna modelu za dražšího démona s hezčím logem.

Jak poznáme, že to pomohlo

Golden Dataset sám o sobě není cíl. Cíl je lepší doporučování. Proto musí být napojený na evaly:

before/after: jak doporučovač fungoval před novými profily a po nich;
recall: jestli se správné kurzy vůbec dostanou mezi kandidáty;
precision: jestli top doporučení nejsou tematicky podobný odpad;
role fit: jestli kurz sedí na roli a úroveň uživatele;
goal fit: jestli kurz řeší skutečný cíl, ne jen klíčové slovo;
regrese: jestli zlepšení jednoho scénáře nerozbilo jiný.

U Skillmea AI to znamená, že Golden Dataset není sklad hezkých JSONů. Je to měřicí přístroj pro recommender. Když změna retrievalu zlepší manažerský AI literacy scénář, ale rozbije účetní Excel cestu, chceme to vidět dřív než uživatel.

Měření doporučovače: scénář uživatele, kandidátní kurzy, správná očekávání z Golden Datasetu a metriky jako recall, precision, role fit a goal fit

Nejčastější chyby

Příliš mnoho dat, málo kontroly. Tisíc automatických záznamů bez důkazů není Golden Dataset. Je to sebevědomý šum.
Žádné negativní příklady. Dataset musí obsahovat i kurzy, které tematicky zní dobře, ale pro daný cíl jsou špatně.
Kontaminace evalů. Pokud eval scénáře používáš k ladění promptu a zároveň k finálnímu měření, podvádíš sám sebe.
Nejasné labely. „Kurz je dobrý“ není label. „Kurz je vhodný pro začátečníka v roli účetní, protože učí X bez předpokladu Y“ už label je.
Chybějící provenance. Bez citací a verzí nevíš, jestli chyba vznikla v přepisu, extrakci, agregaci, review nebo doporučovači.
Optimalizace na jedno číslo. Doporučovač není sprint na leaderboardu. Potřebuje rozumný trade-off mezi relevancí, obtížností, cílem, jazykem a dostupností kurzu.

Praktický blueprint

Kdybych to měla zredukovat na postup, je tohle minimum:

Sepiš 20–50 prioritních scénářů. Reálné cíle uživatelů, ne umělé dotazy pro demo.
Vyber kurzy, které v těch scénářích rozhodují. Správné, hraniční i falešně podobné.
Zaveď strukturované schema. Outcomes, role, témata, předpoklady, obtížnost, Bloom, důkazy, confidence.
Vynucuj citace. Každý důležitý claim musí ukázat do zdrojového textu.
Odděl surový výstup od schváleného datasetu. Model output není pravda.
Verzuj všechno. Dataset, prompt, model, slovníky, eval set, zdrojové přepisy.
Měř před a po. Jinak nebudeš vědět, jestli jsi doporučovač zlepšil, nebo jen přemaloval palubní desku.
Nech dataset stárnout nahlas. Kurzy se mění, modely se mění, katalog se mění. Golden Dataset bez údržby se časem mění v muzeum.

Literatura a zdroje

A Practical Guide for Evaluating LLMs and LLM-Reliant Systems (Rudd, Andrews, Tully, 2025) — dobrý rámec pro praktické evaly: reprezentativní dataset, metriky navázané na produkt a evaluace jako součást vývoje, ne akademická ozdoba.
A Survey on Evaluation of Large Language Models (Chang et al., 2023) — široký přehled toho, co, kde a jak se u LLM měří; užitečné hlavně jako mapa eval disciplíny.
Benchmark Data Contamination of Large Language Models: A Survey (Xu et al., 2024) — proč veřejné benchmarky mohou klamat, když se jejich obsah dostane do trénovacích dat.
Your AI product needs evals (Hamel Husain) — praktický text pro týmy stavějící AI produkt: začni malou ručně kontrolovanou sadou a iteruj podle chyb.
Data-Centric AI (LandingAI) — produktově psané vysvětlení posunu od nekonečného ladění modelu k systematickému zlepšování dat a labelů.
Recommender Systems Handbook — základní referenční kniha k doporučovacím systémům; hodí se jako širší kontext pro měření relevance a uživatelské hodnoty.

Co si pamatovat

Golden Dataset je pojistka proti tomu, aby AI produkt řídily dojmy. U Skillmea AI znamená: vezmeme reálné kurzy, reálné přepisy lekcí, reálné uživatelské cíle a vytvoříme malý, tvrdě ověřený referenční svět. V něm potom měříme, jestli doporučovač opravdu chápe, co kurz učí a komu pomůže.

Bez Golden Datasetu ladíš AI systém podle nálady. S ním aspoň víš, kdy jsi něco zlepšil — a kdy jsi jen vyrobil elegantnější chybu.