大模型隐藏玩家上桌:DeepSeek 向左,面壁向右

他们正在打样「榨干」有限算力的极致解法。

大模型隐藏玩家上桌:DeepSeek 向左,面壁向右

原标题:大模型隐藏玩家上桌:DeepSeek 向左,面壁向右
文章来源:AI科技评论
内容字数:12158字

大模型赛道新格局:高效性成为关键竞争力

大模型赛跑两年后,竞争格局已发生转变,形成三大趋势:追求大参数模型、转向应用端以及专注高效模型。本文重点关注第三类玩家,特别是国内的“面壁”和“DeepSeek”两家公司,它们通过高效的模型训练方法,在有限算力下取得了显著成果,成为大模型领域的新兴力量。

1. 高效训练:面壁与DeepSeek的差异化策略

算力成本高昂,参数规模并非与性能呈线性关系,因此高效训练成为关键。DeepSeek选择从头训练MoE模型,在降低成本的同时提升性能,其DeepSeek-V3模型以较低的成本超越了多个开源模型。而面壁则另辟蹊径,专注于端侧场景,通过自研稀疏化方案和新型类脑高效稀疏CFM架构,在MiniCPM系列模型中取得了显著的性能提升和能耗降低,在单设备服务的高效性上更胜一筹。两者在稀疏化方法、目标场景和高效性侧重点上存在差异。

2. 端侧模型的崛起:MiniCPM-o 2.6的突破

面壁的MiniCPM-o 2.6模型,以8B参数实现了与GPT-4o相当的全模态实时流式视频理解和高级语音对话能力,并具备更强的环境感知能力。其优势在于端侧部署,避免了云端模型的延迟和可靠性问题。MiniCPM-o 2.6的技术突破主要体现在端到端全模态流式架构、低延迟模态并发技术和端到端全模态流式学习三个方面。这标志着端侧模型在性能和应用上取得了重大进展。

3. “能力密度”定律与未来展望

面壁团队提出了“能力密度”定律,认为模型能力密度随时间呈指数级增长,模型参数规模将持续下降,同时模型推理和训练开销也会显著降低。这为端侧模型的发展提供了理论支撑,也预示着未来以更少的资源实现更高智能水平成为可能。 面壁的理念是务实的理想主义,他们认为AI最终应服务于人,高效的AI技术才能真正惠及社会。

4. 挑战与机遇并存

虽然端侧模型发展迅速,但仍面临内存、功耗和算力等硬件瓶颈。 然而,芯片技术的进步和模型训练技术的优化正在逐渐克服这些挑战。 面壁和DeepSeek等公司在高效模型训练方面的探索,为大模型技术的发展带来了新的方向,也为大模型的落地应用提供了更多可能性。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...