「连续数值分布式表征」加持，浙大UIUC让语言模型擅长表格预测 | ICLR 2024 Spotlight

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：「连续数值分布式表征」加持，浙大UIUC让语言模型擅长表格预测 | ICLR 2024 Spotlight
关键字：特征,数值,表格,向量,模型
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST
【新智元导读】来自浙江大学和伊利诺伊大学厄巴纳-香槟分校的研究者发表了他们关于「表格语言模型」（Tabular Language Model）的研究成果，提出「相对量纲分词」和「特征内注意力机制」两种适配技术，使现有语言模型架构能更有效得感知连续数值和组织表格特征，在大量下游分类回归的表格预测数据集上超过以往非语言模型方法。论文「Making Pre-trained Language Models Great on Tabular Prediction」发表在ICLR 2024并被选为Spotlight。深度神经网络（DNN）的迁移学习能力已经在非结构化数据中取得了广泛应用，然而这种迁移红利在结构化的表格数据中仍未得到充分探索。
相比图像、文本和语音，表格数据的基本特征是异质的，不同列的值位于完全不同的特征空间，这为构建可迁移的表格模型带来了根本性的挑战。
在如今的AIGC浪潮下，大语言模型（LLM）可以通过强大的上下文学习（in-context learning）能力执行复杂高层次的推理和规划，因此研究者认为这种文本迁移能力也可以用于规避表格异质特征带来的

原文链接：「连续数值分布式表征」加持，浙大UIUC让语言模型擅长表格预测 | ICLR 2024 Spotlight