AIGC动态欢迎阅读
原标题:多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图
关键字:腾讯,任务,模块,生成器,信息
文章来源:量子位
内容字数:6586字
内容摘要:
Happy 投稿量子位 | 公众号 QbitAI多模态大模型,也有自己的CoT思维链了!
厦门大学&腾讯优图团队提出一种名为“领唱员(Cantor)”的决策感知多模态思维链架构,无需额外训练,性能大幅提升。
在 ScienceQA 上,基于GPT-3.5的Cantor准确率达到了82.39%,相比基于GPT-3.5的思维链方法提升了4.08%。
在更具挑战性的MathVista上,基于Gemini的Cantor准确率比原始Gemini提高了5.9%。
目前Cantor论文已上传arXiv,代码也已经开源。(地址在文末领取)
多模态专属思维链思想链(Chain-of-Thought, CoT)是一种广泛应用的提示方法,通过添加中间推理步骤,可以显著增强大模型的推理能力。
然而,在视觉推理任务中,模型不仅需要把握问题背后的总体逻辑,还需结合图像信息进行具体分析。
多模态思维链应运而生。
现有的多模态思维链方法通常将问题分解为多个相关的子任务,并调用各种外部工具依次处理。
然而,由于视觉信息不足和低级感知工具的局限性,这种范式在决策中面临潜在的“决策幻觉”,以及低级感知工具无法提供
原文链接:多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...