Google Research ha presentado TabFM, un nuevo modelo fundacional diseñado para tareas de clasificación y regresión sobre datos tabulares que opera en modo zero-shot, sin necesidad de entrenar el modelo para cada conjunto de datos. La herramienta, desarrollada por los científicos Weihao Kong y Abhimanyu Das, se inspira en los modelos fundacionales de lenguaje y predicción de series temporales de la propia compañía, como TimesFM.
TabFM aplica aprendizaje en contexto (in-context learning) al dato tabular: en lugar de ajustar los parámetros del modelo para cada tarea, recibe el conjunto completo —incluidos los ejemplos históricos y las filas a predecir— como un único prompt en tiempo de inferencia. Para procesar la naturaleza bidimensional y desordenada de las tablas, la arquitectura híbrida combina mecanismos de atención inspirados en trabajos previos como TabPFN y TabICL.
El modelo se ha entrenado por completo con cientos de millones de conjuntos de datos sintéticos generados mediante modelos causales estructurales, una decisión obligada por la escasez de grandes corpus tabulares industriales abiertos. En el benchmark público TabArena, que abarca 51 conjuntos de datos de clasificación y regresión con tamaños entre 700 y 150.000 muestras, TabFM supera de forma consistente a algoritmos supervisados ajustados como XGBoost, AdaBoost o random forests.
El código y los pesos están disponibles en Hugging Face y GitHub. En las próximas semanas, TabFM se integrará también en Google BigQuery mediante una nueva función SQL, AI.PREDICT, que permitirá ejecutar predicciones avanzadas sin experiencia en aprendizaje automático.
