mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA
关键字：语音,华为,情感,文本,模型
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com
本文作者来自香港科技大学、香港大学和华为诺亚方舟实验室等机构。其中第一作者陈铠、苟耘豪、刘智立为香港科技大学在读博士生，黄润辉为香港大学在读博士生，谭达新为诺亚方舟实验室研究员。
随着 OpenAI GPT-4o 的发布，大语言模型已经不再局限于文本处理，而是向着全模态智能助手的方向发展。这篇论文提出了 EMOVA（EMotionally Omni-present Voice Assistant），一个能够同时处理图像、文本和语音模态，能看、能听、会说的多模态全能助手，并通过情感控制，拥有更加人性化的交流能力。以下，我们将深入了解 EMOVA 的研究背景、模型架构和实验效果。论文题目：EMOVA: Empowering Language Models to

原文链接：mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA