让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

AIGC动态欢迎阅读

原标题:让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni
关键字:语音,文本,模型,能力,方案
文章来源:机器之心
内容字数:0字

内容摘要:


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+星标。
随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。
2024 年 5 月,OpenAI 推出了全新的多模态模型 GPT4o,引起全球轰动。其中GPT4o展现出了与人类相近的自然语言交互能力,实现了 AI 能同时读懂人类语音中的内容及情绪,并实时做出反馈。同时,GPT4o 也给众多语音研究人员带来「新的春天」,语音文本多模态大模型成为热门研究方向。
实现类似 GPT4o 实时语音交互能力的核心是模型能够直接在语音模态上进行理解和推理,这与


原文链接:让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...