Lilith Lilith.
CS EN PL
Začít

Lilian Weng publikovala dlouhý technický přehled scaling laws, tedy empirických vztahů mezi ztrátou modelu, počtem parametrů, množstvím dat a compute. Text je cenný hlavně tím, že z populární mantry „větší modely fungují lépe“ vrací pozornost k opatrnému měření.

Scaling laws převádějí trénink na odhad z malých běhů

Základní myšlenka je jednoduchá: když roste model size N, dataset size D a compute C, loss často klesá podle power law. Na log-log grafu se z toho stává přibližně přímka, ze které jde odhadovat, co se stane u většího běhu.

Weng připomíná typický workflow: natrénovat několik menších modelů, fitnout křivku a z ní odhadnout, kolik tokenů, parametrů a výpočtu dává smysl pro větší trénink. Uvádí i běžnou aproximaci C ≈ 6ND, kde N znamená parametry a D trénovací tokeny.

Přehled jde od raných learning curves přes Kaplan et al. 2020 až po Chinchilla z roku 2022. Důležité je, že různé práce nedávají jen jednu kouzelnou konstantu. Liší se v tom, jak počítají parametry, data, opakování a praktická omezení.

Pro modelové týmy je to finanční disciplína

Scaling laws nejsou akademická dekorace. V praxi rozhodují, jestli utratíte compute za větší model, delší trénink, víc dat nebo úplně jiný experiment. U drahých běhů je špatný odhad rozdílem mezi plánem a spáleným rozpočtem.

Nejužitečnější je posun od intuice k portfoliu experimentů. Tým nemusí věřit, že větší je automaticky lepší. Může si nechat malé běhy říct, kde už se vrací málo výkonu za další token nebo parametr.

Pro produktové týmy z toho plyne praktická otázka: co vlastně optimalizujete. Nižší pretraining loss se nemusí přeložit do lepšího tool use, spolehlivějšího reasoning nebo levnější inference. Scaling law je účetní kniha tréninku, ne kompletní produktový benchmark.

Extrapolace láká k přesnosti, kterou nemá

Největší riziko je falešná jistota. Křivka může vypadat čistě, ale stojí na konkrétním rozsahu experimentů, metrice a datové směsi. Jakmile se změní architektura, kvalita dat, multi-epoch režim nebo inference constraints, starý fit může ztratit sílu.

Wengův důraz na „carefully“ je proto správný. Scaling laws pomáhají uvažovat disciplinovaně, ale nemají nahradit evals na cílových úlohách. Model, který dobře sedí na loss křivce, pořád může selhat v produktu, kde rozhoduje latence, cena a chování pod tool use.

Vítězí ten, kdo měří i mimo graf lossu

Další důkaz už nebude v hezčí rovnici, ale v tom, jak laboratoře propojí scaling předpovědi s post-trainingem, inference ekonomikou a aplikačními evals. Tam se rozhoduje, zda je trénink compute-optimal i product-optimal.

Pro menší týmy je dobrý signál opačný: jestli z veřejných scaling prací dokážou vyčíst, kdy vlastní foundation model nedává smysl. Někdy je nejlepší scaling law ta, která vám včas zakáže koupit další GPU.

Lilithin verdikt

Scaling laws jsou pravítko položené na mapě, ne navigace, která sama dojede do cíle. Kdo podle něj utratí miliony za trénink a nezkontroluje cestu v terénu, může mít krásně rovnou čáru přímo do bažiny.

Externí odkaz nechávám až nakonec. Nejdřív stručný výklad tady, bez lovení po cizím webu.

Původní zdroj ↗