表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

代码已开源,还支持微调

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

原标题:表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格
文章来源:量子位
内容字数:4085字

TabPFN:电子表格领域的ChatGPT时刻

近日,名为TabPFN的表格处理模型登上Nature期刊,引发数据科学领域广泛关注。该模型专为小型表格设计,在样本量不超过10,000时性能达到新SOTA,平均2.8秒内即可超越所有现有方法,即使其他方法拥有长达4小时的调优时间也无法匹敌。更重要的是,TabPFN采用预训练神经网络方法,终结了传统机器学习(如梯度提升树)在表格领域的统治地位。

TabPFN的开箱即用能力与优势

1. **开箱即用:** TabPFN无需专门训练即可处理任意表格,这与传统方法需要针对每个任务开发和训练定制模型形成鲜明对比。例如,在医院预测患者病情恶化风险的场景中,TabPFN可以直接应用于包含患者信息(年龄、血氧水平等)的电子表格,无需额外训练。

2. **性能提升:** TabPFN v2相比初代版本,分类能力得到改进,并扩展了回归任务的支持,性能优于经过长时间调优的基线模型。它还原生支持缺失值和异常值,在处理各种数据集时保持高效和准确。

3. **适用范围:** TabPFN v2适用于处理不超过10,000样本和500特征的中小规模数据集。

TabPFN的训练和应用过程

1. **数据样:** 研究人员生成大量合成数据,通过采样关键参数(数据点、特征、节点数量等),基于结构因果模型(SCMs)构建计算图和图结构,创建具有不同分布和特征的数据集,避免基础模型常见问题。

2. **模型预训练:** TabPFN为每个单元格分配表示,并采用双向注意力机制(1D特征注意力和1D样本注意力),增强对表格数据的理解能力。无论样本和特征顺序如何改变,模型都能稳定提取和利用信息,提高稳定性和泛化能力。

3. **模型优化:** 为了减少重复计算,模型在测试阶段直接利用保存的训练状态;并采用半精度计算、激活检查点等方法减少内存占用。

4. **实际预测:** 通过上下文学习(ICL)机制,模型无需针对每个新数据集重新训练,可以直接应用于各种未曾见过的现实世界数据集。

TabPFN的性能评估与开源

1. **定性实验:** TabPFN能够对多种不同的函数类型进行有效建模,优于线性回归、多层感知器(MLP)、CatBoost等。

2. **定量实验:** 在AutoML Benchmark和OpenML – CTR23等数据集上,TabPFN超越Random Forest、XGBoost等基线方法,在多个指标上取得SOTA,并在5场Kaggle竞赛中(训练样本少于10,000)战胜CatBoost。

3. **开源与API:** TabPFN的代码已开源,并提供API,允许用户使用其GPU进行计算 (API调用:https://priorlabs.ai/tabpfn-nature/;代码:https://github.com/PriorLabs/TabPFN)。

总而言之,TabPFN为表格数据处理带来了性的变化,其开箱即用的能力和优异的性能使其成为小型表格数据处理领域的领先者。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止