8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功

AIGC动态2年前 (2024)发布 Founder Park

AIGC动态欢迎阅读

原标题：8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功
关键字：解读,人工智能,模型,报告,音频
文章来源：Founder Park
内容字数：0字

内容摘要：

文章转载自「机器之心」。最近，一个对标 GPT-4o 的开源实时语音多模态模型火了。这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai，模型名为 Moshi，具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道：「Moshi 能听懂带有法国口音的英语。」据悉，该团队开发这个模型仅用了 6 个月。
的确，在研究团队演示的视频中，我们发现 Moshi 可以非常流利地回答人们提出的问题，进行日常对话交流，甚至可以猜出提问者的意图。
例如，当提问者说「下个月打算去攀登珠穆朗玛峰，我在想……」，提问者话说到一半，Moshi 就说道：「太了不起了，你需要带些什么装备呢」，提问者则表示：「这正是我想讨论的话题，你觉得我需要带些什么呢」。于是，Moshi 给出了一些攀登设备的专业建议，并回答了关于注意事项的问题：
我们发现 Moshi 还会开些小玩笑：「你肯定不想穿着凉鞋去爬山」。
研究团队还用各种说话风格展示了 Moshi 表达和理解情绪的能力。例如，让 Moshi 用法国口音诵读诗句：
不过这首诗太长了，研究人员打断了 Moshi 的朗诵，M

原文链接：8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功