商汤“日日新”:原生融合大模型引领AI 2.0新纪元
本文总结了新智元报道中关于商汤科技“日日新”原生融合大模型的要点,该模型在多模态领域取得突破性进展,引领AI迈向“大一统”时代。
原生融合多模态:AI 2.0的必由之路
文章指出,大模型发展瓶颈在于单一模态处理能力的局限性。商汤“日日新”通过原生融合多模态技术,实现了单一模型同时处理文本、图像、视频等多种信息,突破了传统多模态模型分立的现状,让AI具备“看”和“想”的能力,从而解决更复杂的问题。
“日日新”的惊艳表现:多场景应用
文章列举了“日日新”在多个场景的实际应用,例如:识别各种手写体诗歌并翻译;批改作业,精准指出错误并举一反三;分析绘画作品特点并提出改进建议;识别图像中的历史人物和典故;分析游戏截图并推断电脑配置;理解表情包含义等。这些例子展示了“日日新”强大的跨模态理解和分析能力。
技术突破:融合模态数据合成与融合任务增强训练
商汤“日日新”的成功,得益于两项关键技术:融合模态数据合成和融合任务增强训练。面对数据匮乏的挑战,商汤通过逆渲染、基于混合语义的图像生成等方法合成大量融合模态数据,构建了图文模态之间的交互桥梁。此外,通过构建一系列跨模态任务(涵盖交互、多模态文档分析、场景理解等),进行增强训练,提升了模型对多模态信息整合理解分析的能力,并形成了对业务场景有效的响应能力。
成本优势与未来展望
文章强调,商汤“日日新”的原生融合多模态技术路线,在训练成本方面具有显著优势,仅比同量级LLM增加约20%。这得益于多阶段训练的策略,将语言模型和多模态模型的训练合并在了一起。未来,商汤将继续探索融合模态技术,拓展其在办公、金融、自动驾驶、城市治理等领域的应用,并进一步探索世界模型的可能性。
双料冠军:实力认证
文章最后指出,“日日新”融合大模型在SuperCLUE 2024年度榜单中,以68.3高分与DeepSeek V3并列国内榜首,并在OpenCompass多模态评测中力压GPT-4o,获得双料冠军,展现了其在语言和多模态领域的领先地位。
总而言之,商汤“日日新”原生融合大模型的成功,标志着AI 2.0时代多模态融合技术取得重大突破,为未来AI发展提供了新的方向和可能性。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。