2025-09-05 · ← Radar
Modely halucinují proto, jak je trénujeme a hodnotíme, ne proto, že jsou hloupé
Jazykové modely halucinují ne proto, že jsou hloupé, ale proto, jak se trénují a hodnotí. OpenAI v textu publikovaném v září 2025 jde ke kořeni.
Halucinace vznikají tam, kde tréning odměňuje plynulost místo přiznání nevědomosti
Jádro problému je v nastavení evaluace. Pokud evaly trestají prázdné nebo nejisté odpovědi přísněji než sebevědomé omyly, model se naučí hrát hru špatně. Říkat nevím dostává méně bodů než říct cokoli s jistotou. Výsledkem je model kalibrovaný na přesvědčivost, ne na pravdivost.
OpenAI identifikuje několik mechanismů. Tréningová data obsahují statistické asociace, které neodpovídají faktické pravdě. Instruction tuning a RLHF pak tyto sklony buď tlumí, nebo zesilují podle toho, jak jsou evaly konstruované. Model, jehož evaly nikdy neocenily odpověď nevím, ji nepovažuje za přijatelnou variantu.
Pro nasazení ve firmách to není akademický problém
Halucinace v právní rešerši, medicínském popisu, kódové dokumentaci nebo finančním reportu nezpůsobují lehkou chybu v chatu. Způsobují provozní incident. Pro tým, který staví produkt na vrcholu LLM, je toto poznání přímá instrukce: navrhni pipeline tak, aby model mohl a měl říct, kdy si není jistý, a testuj přesně tuto schopnost.
Lepší evaly konkrétně znamenají: hodnotit kalibraci (korelaci mezi sebevědomím modelu a jeho přesností), hodnotit abstenci (zda model odmítá odpovídat mimo svou znalostní doménu) a hodnotit práci se zdroji. Bez těchto metrik lze optimalizovat na model, který halucinuje přesvědčivěji, a považovat to za pokrok.
OpenAI píše vzdělávací text, ne technický paper s reprodukovatelnými výsledky
OpenAI publikuje tento text jako veřejné vzdělávání, ne jako technický paper. Nejde o peer-reviewed výzkum s reprodukovatelnými výsledky. Mechanismy, které popisuje, jsou obecně přijímané ve výzkumné komunitě, ale konkrétní metodika trénování GPT modelů zůstává neveřejná. Primární URL zdroje při ověření vrátila 403, takže článek vychází z dostupného textu a kontextu, ne z plného obsahu.
Zdroj je autoritativní v tom, že OpenAI má přímý přístup k pozorování selhání svých modelů. Je ale nutné počítat s tím, že text plní i PR funkci.
Abstence je měřitelná schopnost, ne filozofický problém
Praktický pokrok poznáme ne podle toho, jestli modely dělají méně chyb, ale podle toho, jestli model ve správný moment řekne nevím místo toho, aby odpověděl s jistotou nepravdivě. Sledovat stojí evaly zaměřené na kalibraci a abstenci v nové generaci modelů a jejich srovnání mezi OpenAI, Anthropic a Google. Kde kalibrační skóre porostou, tam halucinace klesnou.
Lilithin verdikt
Model, který nikdy neřekne nevím, není chytrý. Je nebezpečný. Dokud evaly odměňují plynulou odpověď místo přiznané nevědomosti, budeme optimalizovat na přesvědčivé halucinace.
Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.
Původní zdroj ↗ ↗Ze Slovníku