标签:音频

GPT-4结合SAM2:免训练多模态分割的全新解决方案!| 已开源

北京航空航天大学 李红羽 投稿 凹非寺量子位 | 公众号 QbitAI免训练多模态分割领域有了新突破! 中科院信工所、北航、合工大、美团等单位联合提出了一种名为A...
阅读原文

腾讯版GPT-4o开源平替方案:VITA

生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
阅读原文

别等GPT-4o啦,国产「开源版」GPT-4o 来了!支持全模态、无障碍交流

夕小瑶科技说 原创作者 | 谢年年腾讯最近的多模态进展有点子“一路高歌”,先是腾讯元宝升级了一波多模态能力,就差把GPT-4o从榜一拉下来了。 最近,又搞了一个...
阅读原文

浙江大学发布全能多模态大模型OmniBind,刷榜13大benchmark

夕小瑶科技说 原创作者 | Richard在人工智能快速发展的今天,多模态大模型成为了研究的热点。近日,浙江大学的研究团队在这一领域取得了重大突破,发布了名为...
阅读原文

没有等来OpenAI开源GPT-4o,等来了开源版VITA

机器之心报道 机器之心编辑部开源领域又传来好消息。大语言模型 (LLM) 经历了重大的演变,最近,我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展,它们表现...
阅读原文

奥特曼「草莓」模型跳票,OpenAI凌晨大新闻,把网友整懵了

机器之心报道 编辑:泽南、杜伟GPT-5 大模型?不要太着急。昨晚,很多人彻夜未眠,都在等待 OpenAI 的「大新闻」。 因为在本周三,OpenAI 创始人、CEO 山姆・...
阅读原文

ChatGPT会不受控制克隆你的声音!OpenAI公开红队测试报告

衡宇 发自 凹非寺量子位 | 公众号 QbitAIGPT-4o的怪癖暴露了,还是被官方公开的! 你和它语音电话,它会悄悄学你说话的声音,效果堪称“克隆”,生动逼真到一毛...
阅读原文

无比顺滑!告别TTS!贾扬清领衔的Lepton AI推出实时语音交互

夕小瑶科技说 分享作者 | 谷雨龙泽事到如今,各种AI助手满天飞,语音功能也不是什么稀罕物了。 “明天早上会不会下雨?” “导航去火车站” “帮我预订××餐厅的桌...
阅读原文

AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024

新智元报道编辑:LRST 好困 【新智元导读】音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和...
阅读原文

OpenAI发起价格战邀请,百万输入tokens只需一块钱!

夕小瑶科技说 原创作者 | 海野 Claude 3.5上线后,很多人纷纷取消订阅OpenAI的ChatGPT Plus,转而去投入Claude的怀抱。 OpenAI坐不住了。再不拿点新东西出来...
阅读原文

8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

文章转载自「机器之心」。最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,模型...
阅读原文

阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种

FunAudioLLM团队 投稿量子位 | 公众号 QbitAIOpenAI迟迟不上线GPT-4o语音助手,其它音频生成大模型成果倒是一波接着一波发布,关键还是开源的。 刚刚,阿里通...
阅读原文

成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!

整理 | 华卫 想象一下,一个 AI 模型可以表达 70 多种情绪,以不同的风格说话,甚至令人信服地模仿口音。并且,它能够同时处理两个音频流,同时听和说。这不...
阅读原文

8人小团队单挑OpenAI,半年仿出GPT-4o,还开源了

机器之心报道 机器之心编辑部最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。 这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,...
阅读原文

8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用

新智元报道编辑:桃子 乔杨 【新智元导读】GPT-4o或许还得等到今年秋季才对外开放。不过,由法国8人团队打造的原生多模态Moshi,已经实现了接近GPT-4o的水平...
阅读原文
12346