原标题:LLM自学成才变身「预言家」!预测未来能力大幅提升
文章来源:新智元
内容字数:6008字
LLM预测未来:无需人工数据,也能精准预测
近来,大型语言模型(LLM)在预测未来方面取得了突破性进展。研究人员通过巧妙地运用自我博弈和直接偏好优化(DPO)技术,成功地使LLM摆脱了对人工数据的过度依赖,大幅提升了其预测能力,甚至可以与大型模型GPT-4o相媲美。
挑战:传统方法的局限性
传统的LLM预测方法依赖大量人工标注数据,例如大众预测结果或人工筛选的内容,成本高昂且效率低下。此外,这些方法难以让模型从已知结果中学习,限制了其持续提升的能力。
突破:自我博弈与直接偏好优化
研究人员提出了一种结果驱动的微调框架,核心在于让LLM进行“自我博弈”。模型会针对同一问题生成多个推理轨迹和概率预测,并根据预测结果与实际结果的接近程度进行排序。DPO技术则直接从这些排序后的推理对中学习奖励信号,无需训练单独的奖励模型,有效提升了微调的效率和稳健性,避免了传统监督微调(SFT)中可能造成的有效信息丢失。
数据与方法:从预测市场到模型微调
研究使用了来自预测市场Polymarket的12100个具有二元结果的预测问题作为数据来源,并结合NewsCatcher API收集相关新闻信息。选用了Phi-4 14B和DeepSeek-R1 14B这两个参数量相对较小的模型进行实验。通过精心设计的提示和模型微调策略(例如使用LoRA适配器和AdamW优化器),研究人员对模型进行了训练,并在测试集上验证了其预测准确性。
结果:显著提升的预测准确性
实验结果显示,经过自我博弈和DPO微调后,Phi-4 14B和DeepSeek-R1 14B的预测准确性显著提升,Brier分数(越低越准确)均有明显下降,与GPT-4o的预测性能相当。这表明,即使是参数量较小的模型,也能通过这种方法达到与大型模型相媲美的预测能力。
结论:新的预测能力提升途径
这项研究为LLM预测能力的提升开辟了新的道路。通过自我博弈和DPO,LLM能够在无需大量人工数据的情况下,从实际结果中学习并改进预测,极大地提高了其实用性和应用范围,为未来在金融、商业等领域的应用提供了新的可能性。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。