国内首个原生融合多模态大模型。
原标题:原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」
文章来源:机器之心
内容字数:7805字
AI大模型发展瓶颈与多模态融合的未来
1. **大模型发展瓶颈:** 文章指出,大型语言模型(LLM)的发展似乎遇到了瓶颈。GPT-5的发布延迟以及其他公司类似的困境表明,训练成本高昂(数千万美元),训练时间漫长(数月),GPU和电力资源不足,以及可访问数据逐渐枯竭,都成为了阻碍。OpenAI前首席科学家Ilya Sutskever也表示,找到正确的扩展方向至关重要。
2. **多模态大模型的兴起:** 谷歌Gemini 1.5 Pro超越GPT-4o,标志着大模型竞赛的“逆袭”。多模态大模型成为新的发展方向,它能够处理多种类型的信息(文本、图像、语音、视频),并具备强大的多模态推理和跨模态迁移能力。这被认为是AI未来发展的必由之路,因为只有让机器拥有对物理世界多维度信息的感知,才能发展出类似人类的分析判断能力。
3. **商汤“日日新”融合大模型的突破:** 商汤科技发布的“日日新”融合大模型实现了原生融合模态训练的突破,打破了大语言模型和多模态模型分立的局面。其交互版SenseNova-5o支持实时音视频对话,拥有良好的记忆力,并能处理多种模态的输入和输出,拓展了新的应用场景,例如教育辅助。
4. **“日日新”模型的优势及测试:** 文章通过实际测试,展示了“日日新”模型在理解图片含义、解答数学题、分析图表等方面的能力。它能够识别并理解图片中的幽默和文化背景,并具备强大的逻辑推理能力。此外,SenseNova-5o的响应速度快,交互流畅自然。
5. **“日日新”模型的商业化及成本优势:** 商汤“日日新”融合大模型已开放API调用,SenseNova-5o也面向视觉交互场景开放商用。值得关注的是,与分别训练语言大模型和多模态模型相比,训练“日日新”的成本降低了40%。
6. **AI扩展定律及未来展望:** 文章认为,当前基于互联网数据预训练的方法很快会到达瓶颈,但真实世界的数据量远大于互联网数据。开发结合多模态的AI模型,才能更好地利用这些数据。商汤“日日新”模型的成功,为AI未来的发展带来了前所未有的想象空间,例如空间结构输入、机器人与LLM的结合等。
7. **中国AI发展的机遇:** 文章最后提到,中国在AI领域的快速发展,以及庞大的产业体系和需求,正在成为驱动AI发展的决定性力量。商汤科技在模型算法、算力、行业经验和工程落地能力等方面具备优势,其多模态大模型已落地在多个场景。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台