标签:音频

字节AI版小李子一开口:黄风岭,八百里

叨乐 发自 凹非寺量子位 | 公众号 QbitAI字节和浙大联合研发的项目Loopy火了! 只需一帧图像,一段音频,就能生成一段非常自然的视频! 研究团队还放出了Loop...
阅读原文

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

机器之心发布 机器之心编辑部近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真...
阅读原文

任意论文一键变播客,谷歌正式发布Illuminate,它能重构研究者的学习方式吗?

机器之心报道 编辑:陈陈、蛋酱像听书一样「读」论文。‍先来听一段英文播客,内容是不是很熟悉?是的,这俩人就是在聊那篇《Attention is All You Need》。在...
阅读原文

GPT-4结合SAM2:免训练多模态分割的全新解决方案!| 已开源

北京航空航天大学 李红羽 投稿 凹非寺量子位 | 公众号 QbitAI免训练多模态分割领域有了新突破! 中科院信工所、北航、合工大、美团等单位联合提出了一种名为A...
阅读原文

腾讯版GPT-4o开源平替方案:VITA

生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
阅读原文

别等GPT-4o啦,国产「开源版」GPT-4o 来了!支持全模态、无障碍交流

夕小瑶科技说 原创作者 | 谢年年腾讯最近的多模态进展有点子“一路高歌”,先是腾讯元宝升级了一波多模态能力,就差把GPT-4o从榜一拉下来了。 最近,又搞了一个...
阅读原文

浙江大学发布全能多模态大模型OmniBind,刷榜13大benchmark

夕小瑶科技说 原创作者 | Richard在人工智能快速发展的今天,多模态大模型成为了研究的热点。近日,浙江大学的研究团队在这一领域取得了重大突破,发布了名为...
阅读原文

没有等来OpenAI开源GPT-4o,等来了开源版VITA

机器之心报道 机器之心编辑部开源领域又传来好消息。大语言模型 (LLM) 经历了重大的演变,最近,我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展,它们表现...
阅读原文

奥特曼「草莓」模型跳票,OpenAI凌晨大新闻,把网友整懵了

机器之心报道 编辑:泽南、杜伟GPT-5 大模型?不要太着急。昨晚,很多人彻夜未眠,都在等待 OpenAI 的「大新闻」。 因为在本周三,OpenAI 创始人、CEO 山姆・...
阅读原文

ChatGPT会不受控制克隆你的声音!OpenAI公开红队测试报告

衡宇 发自 凹非寺量子位 | 公众号 QbitAIGPT-4o的怪癖暴露了,还是被官方公开的! 你和它语音电话,它会悄悄学你说话的声音,效果堪称“克隆”,生动逼真到一毛...
阅读原文

无比顺滑!告别TTS!贾扬清领衔的Lepton AI推出实时语音交互

夕小瑶科技说 分享作者 | 谷雨龙泽事到如今,各种AI助手满天飞,语音功能也不是什么稀罕物了。 “明天早上会不会下雨?” “导航去火车站” “帮我预订××餐厅的桌...
阅读原文

AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024

新智元报道编辑:LRST 好困 【新智元导读】音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和...
阅读原文

OpenAI发起价格战邀请,百万输入tokens只需一块钱!

夕小瑶科技说 原创作者 | 海野 Claude 3.5上线后,很多人纷纷取消订阅OpenAI的ChatGPT Plus,转而去投入Claude的怀抱。 OpenAI坐不住了。再不拿点新东西出来...
阅读原文

8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

文章转载自「机器之心」。最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,模型...
阅读原文

阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种

FunAudioLLM团队 投稿量子位 | 公众号 QbitAIOpenAI迟迟不上线GPT-4o语音助手,其它音频生成大模型成果倒是一波接着一波发布,关键还是开源的。 刚刚,阿里通...
阅读原文
1235