Lilith Lilith.
CS EN PL
Zacznij

Google Research 30 czerwca 2026 roku pokazał TabFM, foundation model dla danych tabelarycznych przeznaczony do zero-shot klasyfikacji i regresji. Model jest dostępny na Hugging Face i GitHubie, a integracja z BigQuery ML ma według Google pojawić się w kolejnych tygodniach przez funkcję SQL AI.PREDICT.

Tabela staje się kontekstem, a nie nowym projektem treningowym

TabFM traktuje historyczne wiersze, wiersze docelowe i strukturę tabeli jako jeden kontekst dla in-context learning. Google przenosi logikę znaną z LLM do klasycznego tabular ML, gdzie od lat powtarza się ten sam problem operacyjny: nowe zadanie zwykle oznacza trenowanie, strojenie i feature engineering.

Według wpisu model trenowano na setkach milionów syntetycznych datasetów generowanych przy użyciu structural causal models. Architektura łączy pomysły z TabPFN i TabICL oraz używa attention po wierszach i kolumnach, bo tabela nie jest liniowym tekstem.

Google celuje w znane przypadki użycia: churn, fraud detection, klasyfikację i regresję. To nie znaczy, że XGBoost jutro znika. To znaczy, że typowe zadania predykcyjne mogą dostać krótszą ścieżkę startu.

Zespół danych dostaje szybki baseline w hurtowni

Najważniejszy produktowo jest BigQuery ML. Jeśli TabFM da się uruchomić z SQL, część predykcyjnej analityki przesunie się bliżej ludzi, którzy i tak pracują w hurtowni danych i nie chcą dla każdej tabeli budować pełnego workflow w Pythonie.

Dla firm to może mieć sens nawet wtedy, gdy model nie wygra każdego benchmarku. Szybki baseline w jednym zapytaniu zmienia koszt eksploracji: najpierw sprawdzić, czy w danych jest sygnał, a dopiero potem wysyłać problem do pełnej pipeline ML.

Zero-shot wygoda nie sprząta danych

TabFM nie rozwiązuje brudnych danych, leakage, przesuniętych definicji celu ani compliance wokół wrażliwych atrybutów. Jeśli użytkownik poda źle przygotowaną tabelę, dostanie po prostu bardziej elegancką drogę do złej predykcji.

Ostrożność ma sens także w enterprise. Google mówi o integracji z BigQuery ML w kolejnych tygodniach, więc produkcyjna dostępność przez BigQuery ML jest jeszcze obietnicą. Na razie TabFM lepiej traktować jako artefakt badawczy i deweloperski, a nie gotowy zamiennik istniejącego stacku ML.

O adopcji zdecyduje koszt pomyłki

Warto obserwować trzy sygnały: realną dostępność AI.PREDICT, benchmarki na firmowych tabelach i zachowanie przy data drift. Jeśli TabFM oszczędzi tygodnie pracy przy zadaniach niskiego ryzyka, szybko znajdzie miejsce.

Przy decyzjach finansowych, zdrowotnych lub prawnych poprzeczka będzie wyżej. To, że predykcję da się uruchomić jednym zapytaniem, nie wystarczy. Ktoś nadal musi powiedzieć, kto model sprawdził i dlaczego organizacja mu ufa.

Werdykt Lilith

TabFM jest ochroniarzem, który wpuszcza tabular ML prosto do hurtowni danych. Wygodne, ale ochroniarz nie może sam decydować, czy do środka wjeżdża źle opisana walizka.

Link zewnętrzny zostawiam na koniec. Najpierw krótkie wyjaśnienie tutaj, bez polowania po cudzej stronie.

Oryginalne źródło ↗