不糊弄的“SHE”
原标题:iPad 里跑“GPT-4o”:面壁新模型,低调开源
文章来源:AI使用技巧
内容字数:3384字
MiniCPM-o 2.6:端侧AI的性突破
人工智能技术日新月异,大型语言模型(LLM)的应用越来越广泛。然而,高昂的算力成本和数据隐私问题一直是制约AI发展的重要因素。近日,面壁智能低调发布的MiniCPM-o 2.6模型,为我们带来了新的希望,它以其强大的性能和端侧部署能力,掀起了端侧AI的。
MiniCPM-o 2.6:小身材,大能量
MiniCPM-o 2.6 是一款仅有8B参数的开源多模态模型,令人惊叹的是,它的性能可以与GPT-4o比肩。更重要的是,它能够在iPad等移动设备上流畅运行,这在业界尚属首次。这意味着,强大的AI能力不再局限于云端服务器,而是可以真正地“走入”我们的日常生活中。
MiniCPM-o 2.6 的强大之处体现在其全模态能力上。它不仅能够“看” (See)——拥有视觉记忆能力,能够理解视频中的内容;还能“听” (Hear)——识别各种声音,甚至能区分细微的敲门声(这方面优于OpenAI的GPT-4o);更能“说” (Express)——表达情绪丰富,能够根据对话内容调整表达方式,带来更自然、更人性化的交互体验。作者幽默地将See、Hear、Express组合成“SHE”,与OpenAI的“HER”形成有趣的对比。
AI界的“糊弄学”:低成本背后的代价
在MiniCPM-o 2.6展现强大实力的同时,我们也需要反思AI行业中存在的“糊弄学”现象。由于算力成本居高不下,一些AI产品为了降低成本,采用了各种“偷工减料”的方式,例如:
“假装思考”的AI
有些AI产品会模拟思考过程,但实际上并未进行真正的计算和推理,而是通过预设的规则或简单的模式匹配来生成答案。这就像一个只会背诵答案的学生,无法真正理解问题的含义。
“看图说话”的伪装
在视频通话领域,“看图说话”是一种常见的“糊弄”方式。一些AI产品只截取视频的静态画面进行分析,而忽略了视频的动态信息。这会导致AI无法理解视频中的动作和变化,只能对静态画面进行简单的描述,造成理解偏差。
“语音套娃”的低效
许多语音助手采用“语音转文字,再转语音”的方案,将语音信息进行两次转换,这不仅降低了效率,还会丢失语音中的语气、语调等重要信息,导致AI理解出现偏差。
端侧AI:未来之路
与那些“糊弄”的AI产品不同,MiniCPM-o 2.6代表着端侧AI的未来方向。它为用户带来了诸多好处:
- 更低成本:无需依赖云端服务器,节省了大量的算力成本。
- 稳定使用:不受服务器负载的影响,保证了AI服务的稳定性。
- 隐私保护:数据处理在本地完成,无需上传数据,保护了用户的隐私安全。
对于厂商而言,端侧AI也具有巨大的吸引力:
- 差异化竞争:搭载强大的端侧AI,能够提升产品的竞争力。
- 生态构建:通过AI连接各种内置功能,构建更完善的生态系统。
虽然端侧AI并不能完全取代云端AI,但MiniCPM-o 2.6的出现,标志着端侧AI技术已经日趋成熟,它将与云端AI长期共存,共同推动AI技术的发展,并最终融入我们的日常生活。
MiniCPM-o 2.6开源项目地址:
GitHub:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-2_6
联系作者
文章来源:AI使用技巧
作者微信:
作者简介:解锁人工智能秘籍,带你一键提升生活与工作智能化!鲜活案例、实用技巧,触手可及的AI知识,让前沿科技成为你的日常利器。关注我们,把握AI动态,简化复杂,激发创造力,开启你的智能化生活新篇章!