Lilith Lilith.
CS EN PL
Zacznij

Lilian Weng opublikowała długi techniczny przegląd scaling laws, czyli empirycznych relacji między stratą modelu, liczbą parametrów, ilością danych i compute. Największa wartość tekstu polega na tym, że popularne hasło „większe modele działają lepiej“ sprowadza z powrotem do ostrożnego mierzenia.

Scaling laws robią z treningu estymację na podstawie małych biegów

Podstawowa idea jest prosta: gdy rośnie model size N, dataset size D i compute C, loss często spada zgodnie z power law. Na wykresie log-log może to wyglądać prawie jak linia prosta, z której da się szacować większy trening.

Weng przypomina typowy workflow: wytrenować kilka mniejszych modeli, dopasować krzywą i na tej podstawie oszacować, ile tokenów, parametrów i FLOPs ma sens przy większym biegu. Pojawia się też często używane przybliżenie C ≈ 6ND, gdzie N oznacza parametry, a D tokeny treningowe.

Przegląd prowadzi od wczesnych learning curves przez Kaplan et al. 2020 po Chinchilla z 2022 roku. Ważne jest to, że literatura nie daje jednej magicznej stałej. Wyniki zależą od tego, jak liczone są parametry, dane, powtórzenia i praktyczne ograniczenia.

Dla zespołów modelowych to dyscyplina finansowa

Scaling laws nie są akademicką ozdobą. W praktyce wpływają na decyzję, czy wydać compute na większy model, dłuższy trening, więcej danych czy inny eksperyment. Przy drogich biegach zły szacunek oznacza różnicę między planem a spalonym budżetem.

Najbardziej przydatny jest przesuw od intuicji do portfela eksperymentów. Zespół nie musi wierzyć, że większe automatycznie znaczy lepsze. Małe biegi mogą pokazać, gdzie kolejny token albo parametr przestaje kupować sensowną poprawę.

Dla zespołów produktowych wynika z tego proste pytanie: co właściwie optymalizujecie. Niższy pretraining loss nie musi oznaczać lepszego tool use, pewniejszego reasoning ani tańszej inference. Scaling law to księga treningu, nie pełny benchmark produktu.

Ekstrapolacja kusi dokładnością, której nie ma

Największe ryzyko to fałszywa pewność. Krzywa może wyglądać czysto, ale zależy od konkretnego zakresu eksperymentów, metryki i mieszanki danych. Zmień architekturę, jakość danych, multi-epoch training albo constraints przy inference, a stary fit może stracić moc.

Dlatego nacisk Weng na „carefully“ jest trafny. Scaling laws pomagają myśleć zdyscyplinowanie, ale nie zastąpią evals na docelowych zadaniach. Model może dobrze leżeć na krzywej lossu, a i tak polec w produkcie, gdzie liczy się latencja, koszt i zachowanie przy tool use.

Wygra ten, kto mierzy także poza wykresem lossu

Kolejny sprawdzian nie będzie w ładniejszym równaniu. Będzie w tym, jak laboratoria połączą scaling predictions z post-trainingiem, ekonomią inference i evals dla aplikacji. Tam okaże się, czy compute-optimal training jest też product-optimal.

Dla mniejszych zespołów dobry sygnał działa odwrotnie: czy publiczne prace o scaling pomagają ustalić, kiedy własny foundation model nie ma sensu. Czasem najlepsza scaling law to ta, która w porę zabrania kupić kolejne GPU.

Werdykt Lilith

Scaling laws są linijką położoną na mapie, nie nawigacją, która sama dowiezie do celu. Kto według niej wyda miliony na trening i nie sprawdzi terenu, może narysować idealnie prostą linię prosto w bagno.

Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.

Oryginalne źródło ↗