多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图
关键字：腾讯,任务,模块,生成器,信息
文章来源：量子位
内容字数：6586字

内容摘要：

Happy 投稿量子位 | 公众号 QbitAI多模态大模型，也有自己的CoT思维链了！
厦门大学&腾讯优图团队提出一种名为“领唱员（Cantor）”的决策感知多模态思维链架构，无需额外训练，性能大幅提升。
在 ScienceQA 上，基于GPT-3.5的Cantor准确率达到了82.39%，相比基于GPT-3.5的思维链方法提升了4.08%。
在更具挑战性的MathVista上，基于Gemini的Cantor准确率比原始Gemini提高了5.9%。
目前Cantor论文已上传arXiv，代码也已经开源。（地址在文末领取）‍‍‍‍‍
多模态专属思维链思想链（Chain-of-Thought, CoT）是一种广泛应用的提示方法，通过添加中间推理步骤，可以显著增强大模型的推理能力。
然而，在视觉推理任务中，模型不仅需要把握问题背后的总体逻辑，还需结合图像信息进行具体分析。
多模态思维链应运而生。
现有的多模态思维链方法通常将问题分解为多个相关的子任务，并调用各种外部工具依次处理。
然而，由于视觉信息不足和低级感知工具的局限性，这种范式在决策中面临潜在的“决策幻觉”，以及低级感知工具无法提供

原文链接：多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图