Microsoft robi z explainability maszynę do hipotez dla neurobiologii | Radar

Microsoft Research opisał generative causal testing, czyli ramę dla neurobiologii języka, która zamienia modele typu black box w krótkie, zrozumiałe hipotezy, a potem testuje je w skanerze. Wpis ukazał się 25 czerwca 2026 roku, autorzy wskazują na powiązany paper przyjęty do Nature Neuroscience i udostępniony kod na GitHubie.

Model przewiduje reakcję mózgu i musi pokazać, co ją napędza

Problem wyjściowy jest znany: model oparty na LLM potrafi przewidywać, jak mózg reaguje na język, ale jego wewnętrzne reprezentacje nie są teorią naukową. GCT wyszukuje frazy, które silnie pobudzają model dla konkretnego voxela lub regionu, a potem LLM zamienia je w krótkie wyjaśnienie.

Ważniejszy jest drugi krok. System prosi LLM o napisanie nowych historii zaprojektowanych tak, aby aktywowały wybrany obszar mózgu, po czym badacze sprawdzają to w fMRI. Paper na arXiv opisuje także 20 godzin narracyjnych historii użytych do trenowania modeli przewidujących odpowiedzi BOLD.

Wynik to coś więcej niż ładna etykieta. Microsoft podaje przykłady takie jak food preparation, location names, dialogue, clock times i measurements, a metoda miała pomóc odróżnić sąsiednie regiony o podobnej funkcji.

Dla badaczy liczy się zdanie, które da się obalić

Dla zespołów AI lekcja nie dotyczy wyłącznie neurobiologii. Model predykcyjny przestaje być końcową odpowiedzią i staje się generatorem hipotez, które można zaatakować eksperymentem. To różnica między explainability jako panelem kontrolnym a explainability jako częścią cyklu naukowego.

Ten sam wzorzec wróci w biologii, medycynie i badaniach materiałowych. Modele mogą tanio znajdować wzorce, ale zaufanie dostaną dopiero wtedy, gdy ich wyniki przejdą pomiar poza kontekstem treningowym.

Najsłabszy punkt to nasza słabość do eleganckich wyjaśnień

GCT brzmi elegancko, bo zamienia sygnał neuronalny w słowa. Właśnie tu jest ryzyko: krótkie wyjaśnienie może wydawać się bardziej przekonujące, niż powinno. Autorzy słusznie opierają się na kolejnym eksperymencie, a nie na tym, że LLM zgrabnie coś nazwał.

Drugi limit to skalowanie poza kontrolowane badania. W fMRI można zaprojektować stimulus i obserwować wybrany region. W bardziej chaotycznych domenach trudniej będzie rozpoznać, czy model odsłonił mechanizm, czy tylko napisał elegancką historię.

Niezależne laboratoria pokażą, czy to stanie się narzędziem nauki

Najważniejszym sygnałem nie będzie kolejna demonstracja, lecz replikacja. Jeśli inne zespoły wezmą GCT, zastosują je na własnych danych i znajdą hipotezy, które przetrwają nowe eksperymenty, będzie to mocny argument za AI jako narzędziem rozumienia naukowego.

Warto obserwować GitHub i późniejsze cytowania. Prawdziwa wartość pojawi się dopiero wtedy, gdy metoda stanie się zwykłą praktyką laboratoryjną, a nie tylko efektownym paperem o tym, że black box potrafi mówić.

Werdykt Lilith

Najmocniejszy obraz to nie kolorowa mapa mózgu, lecz naukowiec, który wyciąga model zza kulis i każe mu położyć hipotezę na stole. Dopiero skaner rozstrzyga, czy to odkrycie, czy dobrze ubrana bajka.