别等GPT-4o啦，国产「开源版」GPT-4o 来了！支持全模态、无障碍交流

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：别等GPT-4o啦，国产「开源版」GPT-4o 来了！支持全模态、无障碍交流
关键字：腾讯,音频,模型,数据,文本
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年腾讯最近的多模态进展有点子“一路高歌”，先是腾讯元宝升级了一模态能力，就差把GPT-4o从榜一拉下来了。
最近，又搞了一个和GPT-4o对标的交互式多模态模型——VITA，而且率先开源了。
每次使用Siri时，都得先说个唤醒词，比如“Hi! Siri”，或者按个按钮才能开始说话。而且，当机器在回答用户提问的时候，用户就不能继续提问了，因为它只能按顺序处理输入。
这次，腾讯提出了VITA，打破了这一限制！
“VITA”看这名字就知道，其能够同时处理和分析 Video（视频）、Image（图像）、Text（文本）和 Audio（音频）。VITA不仅具备强大的多语言、视觉和音频理解基础能力，在各种单模态和多模态基准测试中表现强劲。更重要的是，VITA带来了两个超棒的改进：
无需唤醒的交互：VITA很聪明，能自动忽略周围环境中的无关声音，如他人的谈话。所以你不用再说唤醒词，也不用按按钮，就能自然而然地与VITA展开对话。
音频中断的交互：当VITA正在回答时，如果用户突然想到另一个问题，只需直接说出，VITA便能立即暂停当前回答，迅速转向并解答新问题。这

原文链接：别等GPT-4o啦，国产「开源版」GPT-4o 来了！支持全模态、无障碍交流