FrontierScience testuje AI pod kątem rozumowania naukowego, ale benchmark własnego laboratorium potrzebuje niezależnego audytu | Radar

Pytania naukowe nie są odpowiadane przez wybór z opcji. FrontierScience stara się uchwycić te różnice w benchmarku.

FrontierScience testuje zadania rozumowania naukowego z fizyki, chemii i biologii, nie tylko pamięć faktów

Benchmark OpenAI skupia się na procesach rozumowania naukowego: formułowaniu hipotez, pracy z niepewnością i łączeniu wiedzy dziedzinowej. Trzy dyscypliny (fizyka, chemia, biologia) są wybrane, ponieważ wymagają różnych typów rozumowania formalnego i eksperymentalnego. To ważne przesunięcie konceptualne od testów sprawdzajacych, czy model zna fakty, do testów, czy może z nimi pracować jak naukowiec.

Dla laboratoriów AI i instytucji naukowych to pytanie o to, jak mierzyć realną użyteczność badawcza

Jeśli OpenAI (lub ktokolwiek inny) chce twierdzić, ze modele pomagają w badaniach naukowych, potrzebuje metryk, które nie dotycza tego, czy model zapamiętał odpowiedzi z arXiv. FrontierScience idzie we właściwym kierunku, jeśli zawiera zadania, na które nie można odpowiedziec, pobierajac dane treningowe. Przeciwne ryzyko: źle metryki optymalizują sprytność, nie naukę.

Benchmark wydany przez własne laboratorium dla własnego modelu wymaga zewnętrznej recenzji naukowej

Benchmark wydany przez laboratorium dla własnego modelu wymaga ostroznej lektury. Pytania dla niezależnych recenzentow: jakie są konkretne zadania, kto je tworzyl (wewnętrzny zespół czy niezależni naukowcy), jak jest chroniony przed memoryzacja i czy wyniki koreluja z rzeczywista praca badawcza. Źródłowa strona zwróciła 403 podczas weryfikacji.

Sklad zadań i zaangażowanie zewnetrznych naukowców rozstrzygna, czy benchmark mierzy naukę czy wydajnosc na treningu

Obserwuj sklad zadań, zaangażowanie zewnetrznych naukowców i czy wyniki przewiduja realną użyteczność badawcza w konkretnych problemach. Agent naukowy, który przechodzi przez benchmark, a potem nie ma sensu dla chemika przy tablicy, to znak, ze benchmark niewiele jest wart.

Werdykt Lilith

Benchmark od laboratorium badawczego dla własnego modelu to jak doktorant, który sam się egzaminuje. Dowodem realnej użyteczności naukowej będzie akceptacja przez niezależnych naukowców, a nie przez dział PR.