AIGC动态欢迎阅读
原标题:成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!
关键字:模型,语音,华为,音频,文本
文章来源:AI前线
内容字数:0字
内容摘要:
整理 | 华卫
想象一下,一个 AI 模型可以表达 70 多种情绪,以不同的风格说话,甚至令人信服地模仿口音。并且,它能够同时处理两个音频流,同时听和说。这不是科幻小说,而是 Kyutai 在语音 AI 技术上的最新突破。
只用短短 6 个月的时间,这个由 8 人组成的非营利性 AI 研究实验室从零开发出了一种名为 “Moshi “的实时原生多模态基础 AI 模型。根据 Kyutai 的说法,Moshi 是世界上首个具有自然对话能力的可公开访问 AI 助手。OpenAI 之前曾展示过 GPT-4o 的语音引擎和语音模式功能,但尚未发布。
据称,该模型具备的功能可与 OpenAI 的 GPT-4o 和 Google Astra 相媲美,但模型要小得多。“Moshi 在说话时思考。”Kyutai 首席执行官帕特里克·佩雷斯 (Patrick Pérez) 表示,Moshi 具有彻底改变人机通信的潜力。
7 月 4 日,Kyutai 在法国巴黎公开发布了 Moshi 的实验原型,用户可以在网上测试体验(https://moshi.chat/?queue_id=talktomoshi)。值
原文链接:成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!
联系作者
文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...