Microsoft ukazuje AI jako stroj na hypotézy pro neurovědu | Radar

Microsoft Research popsal generative causal testing, rámec pro jazykovou neurovědu, který z black box modelů dělá krátké lidsky čitelné hypotézy a potom je testuje ve scanneru. Blog vyšel 25. června 2026, autoři uvádějí přijetí souvisejícího paperu v Nature Neuroscience a zveřejněný kód na GitHubu.

Model nejdřív předpoví mozkovou reakci a potom musí říct proč

Výchozí problém je známý: LLM-based model umí dobře predikovat, jak se mozek při zpracování jazyka rozsvítí, ale jeho vnitřní reprezentace nejsou vědecká teorie. GCT proto hledá fráze, které silně aktivují model konkrétního voxelového nebo regionálního signálu, a LLM z nich skládá stručné vysvětlení.

Druhý krok je důležitější. Systém nechá LLM napsat nové příběhy navržené tak, aby aktivovaly vybranou oblast mozku, a ty se pak testují při fMRI. Paper na arXivu popisuje i data z 20 hodin narativních příběhů, na kterých se podobné encoding modely učí predikovat BOLD odezvy.

Výsledek není jen pěkná anotace. Microsoft uvádí příklady jako food preparation, location names, dialogue, clock times nebo measurements a tvrdí, že metoda pomohla rozlišit i sousední regiony s podobnou funkcí.

Pro výzkumníky je cennější ověřitelná věta než další heatmapa

Pointa pro AI týmy není v neurovědě samotné, ale v pracovním vzoru. Prediktivní model přestává být konečnou odpovědí a stává se generátorem hypotéz, které se dají napadnout experimentem. To je praktický rozdíl mezi explainability jako dashboardem a explainability jako součástí vědeckého cyklu.

Stejný tlak se bude vracet v biologii, medicíně nebo materiálovém výzkumu. Modely budou levněji nacházet vzory, ale důvěru získají až ve chvíli, kdy jejich výstup přežije měření mimo tréninkový kontext.

Slabé místo je pořád lidská chuť věřit pěknému vysvětlení

GCT zní elegantně, protože převádí neurální signál do slov. Právě tam je riziko: krátké vysvětlení může působit přesvědčivěji, než si zaslouží. Autoři proto správně trvají na následném experimentu, ne na tom, že LLM něco hezky pojmenoval.

Další limit je škálování mimo dobře měřitelné experimenty. Ve fMRI lze navrhnout stimulus a sledovat cílovou oblast. V chaotičtějších doménách bude těžší poznat, jestli model odhalil mechanismus, nebo jen vyrobil elegantní příběh.

Rozhodne počet hypotéz, které přežijí nezávislé laboratoře

Nejdůležitější signál nebude další sada ukázek, ale replikace. Pokud jiné týmy vezmou GCT, použijí ho na vlastní data a najdou hypotézy, které obstojí v nových experimentech, bude to silný argument pro AI jako nástroj vědeckého porozumění.

Sledovat se vyplatí i GitHub a návazné citace. Opravdová hodnota se ukáže až ve chvíli, kdy z metody vznikne běžná laboratorní rutina, ne jen efektní paper o tom, že black box umí mluvit.

Lilithin verdikt

Tady stojí model před tabulí a musí ze svých aktivací udělat hypotézu, kterou vědec pošle do scanneru. Teprve experiment ukáže, jestli z černé skříňky vypadla teorie, nebo jen hezky učesaná pohádka.