没有等来OpenAI开源GPT-4o，等来了开源版VITA

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：没有等来OpenAI开源GPT-4o，等来了开源版VITA
关键字：模型,音频,研究者,腾讯,数据
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部开源领域又传来好消息。大语言模型 (LLM) 经历了重大的演变，最近，我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展，它们表现出令人惊讶的多模态能力。
特别是，GPT-4o 的出现显著推动了 MLLM 领域的发展。然而，与这些模型相对应的开源模型却明显不足。开源社区迫切需要进一步促进该领域的发展，这一点怎么强调也不为过。
本文，来自腾讯优图实验室等机构的研究者提出了 VITA，这是第一个开源的多模态大语言模型 (MLLM)，它能够同时处理和分析视频、图像、文本和音频模态，同时具有先进的多模态交互体验。
研究者以 Mixtral 8×7B 为语言基础，然后扩大其汉语词汇量，并进行双语指令微调。除此以外，研究者进一步通过多模态对齐和指令微调的两阶段多任务学习赋予语言模型视觉和音频能力。
VITA 展示了强大的多语言、视觉和音频理解能力，其在单模态和多模态基准测试中的出色表现证明了这一点。
除了基础能力，该研究在提升自然多模态人机交互体验方面也取得了长足进步。据了解，这是第一个在 MLLM 中利用非唤醒交互和音频中断的研究。研究者还设计了额外的状态 to

原文链接：没有等来OpenAI开源GPT-4o，等来了开源版VITA