8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用

AIGC动态6个月前发布 新智元
16 0 0

8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用

AIGC动态欢迎阅读

原标题:8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用
关键字:模型,语音,音频,团队,演示
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:桃子 乔杨
【新智元导读】GPT-4o或许还得等到今年秋季才对外开放。不过,由法国8人团队打造的原生多模态Moshi,已经实现了接近GPT-4o的水平,现场演示几乎0延迟,AI大佬纷纷转发。没想到,「开源版」GPT-4o这么快就来了!
昨夜,来自法国AI实验室kyutai放出首个实时原生多模态Moshi,效果演示堪比5月发布的GPT-4o。
比如下面这个demo中,Moshi作为助手帮助Alexa小哥踏上太空之旅,让人一秒幻视流浪地球中的Moss。
值得一提的是,这是8人团队仅用了半年的时间,从头完成了模型的训练。
Moshi还处在实验原型阶段,设计初衷是为了理解和表达情感,能够支持听、说、看,可以用70种不同情绪和风格说话,甚至随时打断。
它最为突出的一个能力是,能够同时处理两个音频流,即「听」和「说」是同时进行的。
这种实时互动的实现,是基于文本和音频混合的联合预训练,用Helium中合成的文本数据,训出的70亿参数的模型。
Moshi可以实现最低160ms端到端延迟。
而且,最小版本的Moshi还可以在笔记本电脑,或者消费级GPU上可跑。
许多人都说这是最接近G


原文链接:8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...