TabFM chce udělat z tabulkového ML jeden dotaz místo malého projektu | Radar

Google Research 30. června 2026 představil TabFM, foundation model pro tabulková data určený pro zero-shot klasifikaci a regresi. Model je dostupný přes Hugging Face a GitHub, integrace do BigQuery ML má podle Googlu přijít v dalších týdnech přes SQL funkci AI.PREDICT.

Tabulka se mění v kontext, ne v nový tréninkový projekt

TabFM bere historické řádky, cílové řádky a strukturu tabulky jako jeden kontext pro in-context learning. Google tím přenáší logiku známou z LLM do klasického tabulkového ML, kde se roky opakuje stejný provozní problém: každá nová úloha znamená trénink, ladění a feature engineering.

Model je podle blogu trénovaný na stovkách milionů syntetických datasetů generovaných pomocí structural causal models. Architektura kombinuje prvky z TabPFN a TabICL a pracuje s pozorností přes řádky i sloupce, protože tabulka není lineární text.

Google opatrně míří na klasické úlohy jako churn, fraud detection, klasifikace a regrese. Netvrdí tím, že XGBoost zítra zmizí. Tvrdí, že běžné prediktivní úlohy by mohly začít zkratkou.

Datový tým získá rychlý baseline přímo ve skladu

Největší produktová pointa je BigQuery ML. Pokud TabFM půjde spustit z SQL, přesune část prediktivní analytiky blíž k lidem, kteří už sedí nad datovým skladem a nepotřebují kvůli každé tabulce stavět celý Python workflow.

Pro firmy to může být praktické i bez toho, aby model vyhrál každý benchmark. Rychlý baseline v jednom dotazu mění ekonomiku rozhodování: nejdřív zjistit, jestli v datech vůbec je signál, teprve potom posílat problém do plného ML pipeline.

Zero-shot pohodlí nenahradí odpovědnost za data

TabFM neřeší špinavá data, leakage, posunuté definice cíle ani compliance kolem citlivých atributů. Pokud uživatel pošle do modelu špatně připravenou tabulku, dostane jen elegantnější cestu ke špatné predikci.

Opatrnost je na místě i u enterprise nasazení. Google mluví o integraci v dalších týdnech, takže produkční dostupnost přes BigQuery ML je zatím příslib. Do té doby je rozumné brát TabFM jako výzkumný a vývojářský artefakt, ne hotovou náhradu zavedeného ML stacku.

O adopci rozhodne cena chyby, ne pohodlí syntaxe

Sledovat se vyplatí tři věci: reálná dostupnost AI.PREDICT, benchmarky na firemních tabulkách a chování modelu při driftu dat. Pokud TabFM ušetří týdny práce na low-risk úlohách, najde si místo rychle.

U úloh s finančním, zdravotním nebo právním dopadem bude laťka vyšší. Tam nestačí, že se predikce spustí jedním dotazem. Někdo musí pořád vysvětlit, kdo model zkontroloval a proč mu organizace věří.

Lilithin verdikt

TabFM je vrátný, který pouští tabulkové ML přímo do datového skladu. To je pohodlné, ale vrátný nesmí rozhodovat, jestli se do budovy pustí i špatně označený kufr.