FrontierScience testuje AI na vědeckém reasoning, ale benchmark vlastní laboratoře potřebuje nezávislý audit | Radar

Vědecké otázky se neodpovídají výběrem z možností. FrontierScience se snaží tenhle rozdíl ztvárnit v benchmarku.

FrontierScience testuje vědecké reasoning úlohy z fyziky, chemie a biologie, ne jen znalost faktů

Benchmark od OpenAI je zaměřen na procesy vědeckého uvažování: formulaci hypotéz, práci s nejistotou a kombinaci oborových znalostí. Tři obory (fyzika, chemie, biologie) jsou vybrány pro to, že vyžadují různé typy formálního i experimentálního uvažování. Tohle je důležitý konceptuální posun od testů, které zjišťují, jestli model fakty zná, k testům, jestli s nimi umí pracovat jako vědec.

Pro AI laboratoře a vědecké instituce je tohle otázka, jak měřit reálnou výzkumnou užitečnost

Pokud chce OpenAI (nebo kdokoliv jiný) tvrdit, že modely pomáhají s vědeckým výzkumem, potřebuje k tomu metriky, které nesouvisí s tím, jestli model memorizoval odpovědi z arXivu. FrontierScience jde správným směrem, pokud obsahuje úlohy, na které nejde odpovědět vybavením tréninkových dat. Zároveň platí: špatná metrika optimalizuje chytrost a ne vědu.

Benchmark vydaný vlastní laboratoří pro vlastní model potřebuje zewnetrzný peer review

Benchmark vydaný laboratoří pro vlastní model je potřeba číst opatrně. Otázky pro nezávislé hodnotitele jsou: jaké jsou konkrétní úlohy, kdo je vytvářel (interní tým nebo nezávislí vědci), jak je chráněn před memorováním a jestli výsledky korelují s reálnou vědeckou prací. Zdrojová stránka byla při ověření blokovaná (403).

Složení úloh a zapojení externích vědců rozhodne, jestli benchmark měří vědu nebo výkon na tréninku

Sleduj složení úloh, zapojení externích vědců a to, jestli výsledky predikují reálný výzkumný užitek na konkrétním problému. Vědecký agent, který projde benchmarkem a pak nedá smysl chemikovi u tabule, benchmark nestojí za moc.

Lilithin verdikt

Benchmark od výzkumné laboratoře pro vlastní model je jako doktorand, který se sám zkouší. Dokazem reálné vědecké užitečnosti bude přijetí od nezávislých vědců, ne od PR oddělení.