AIGC动态欢迎阅读
原标题:别等GPT-4o啦,国产「开源版」GPT-4o 来了!支持全模态、无障碍交流
关键字:腾讯,音频,模型,数据,文本
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 谢年年腾讯最近的多模态进展有点子“一路高歌”,先是腾讯元宝升级了一模态能力,就差把GPT-4o从榜一拉下来了。
最近,又搞了一个和GPT-4o对标的交互式多模态模型——VITA,而且率先开源了。
每次使用Siri时,都得先说个唤醒词,比如“Hi! Siri”,或者按个按钮才能开始说话。而且,当机器在回答用户提问的时候,用户就不能继续提问了,因为它只能按顺序处理输入。
这次,腾讯提出了VITA,打破了这一限制!
“VITA”看这名字就知道,其能够同时处理和分析 Video(视频)、Image(图像)、Text(文本) 和 Audio(音频)。VITA不仅具备强大的多语言、视觉和音频理解基础能力,在各种单模态和多模态基准测试中表现强劲。更重要的是,VITA带来了两个超棒的改进:
无需唤醒的交互:VITA很聪明,能自动忽略周围环境中的无关声音,如他人的谈话。所以你不用再说唤醒词,也不用按按钮,就能自然而然地与VITA展开对话。
音频中断的交互:当VITA正在回答时,如果用户突然想到另一个问题,只需直接说出,VITA便能立即暂停当前回答,迅速转向并解答新问题。这
原文链接:别等GPT-4o啦,国产「开源版」GPT-4o 来了!支持全模态、无障碍交流
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...