多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图

AIGC动态5个月前发布 量子位
9 0 0

多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图

AIGC动态欢迎阅读

原标题:多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图
关键字:腾讯,任务,模块,生成器,信息
文章来源:量子位
内容字数:6586字

内容摘要:


Happy 投稿量子位 | 公众号 QbitAI多模态大模型,也有自己的CoT思维链了!
厦门大学&腾讯优图团队提出一种名为“领唱员(Cantor)”的决策感知多模态思维链架构,无需额外训练,性能大幅提升。
在 ScienceQA 上,基于GPT-3.5的Cantor准确率达到了82.39%,相比基于GPT-3.5的思维链方法提升了4.08%。
在更具挑战性的MathVista上,基于Gemini的Cantor准确率比原始Gemini提高了5.9%。
目前Cantor论文已上传arXiv,代码也已经开源。(地址在文末领取)‍‍‍‍‍
多模态专属思维链思想链(Chain-of-Thought, CoT)是一种广泛应用的提示方法,通过添加中间推理步骤,可以显著增强大模型的推理能力。
然而,在视觉推理任务中,模型不仅需要把握问题背后的总体逻辑,还需结合图像信息进行具体分析。
多模态思维链应运而生。
现有的多模态思维链方法通常将问题分解为多个相关的子任务,并调用各种外部工具依次处理。
然而,由于视觉信息不足和低级感知工具的局限性,这种范式在决策中面临潜在的“决策幻觉”,以及低级感知工具无法提供


原文链接:多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...