标签:音频

给 Sora 视频配音,ElevenLabs 推出 AI 音效生成功能,离 AI 生成电影又近了一步!

Sora 之后的新突破来了! AI 语音克隆初创公司 ElevenLabs 宣布即将上线 AI Sound Effects 功能,可以让用户输入 Prompt 自动生成声音。在他们发布的演示短片...
阅读原文

AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

新智元报道编辑:桃子 好困 【新智元导读】Sora突破之后的突破又来了!语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全...
阅读原文

音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal

新智元报道编辑:拉燕 【新智元导读】最近,来自Meta和UC伯克利的研究人员,发布了一种最新的音频到人像模型。操作简单,输出极致逼真。就在最近,Meta和UC伯...
阅读原文

AI反诈!Deepfake音视频检测技术亮相CES,准确率超90%

西风 发自 凹非寺量子位 | 公众号 QbitAI离大谱,一个标有美国消费者新闻与商业频道CNBC logo的视频称: “每个欧洲人靠ChatGPT,每周能赚3到4千欧元。” “投资...
阅读原文

字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频、一个情感片段

允中 发自 凹非寺量子位 | 公众号 QbitAIAIGC在视频生成领域展现出非凡的潜力。近期, 字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-...
阅读原文

GPT-5前瞻!艾伦人工智能研究所发布最强多模态模型,预测GPT-5新能力

新智元报道编辑:alan 【新智元导读】近日,艾伦人工智能研究所发布了Unified-IO 2,——第一代Unified-IO曾预测了GPT-4等模型的能力,所以我们可以从新一代的...
阅读原文

一句话精准视频片段定位!清华新方法拿下SOTA|已开源

陈厚伦 投稿量子位 | 公众号 QbitAI只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配...
阅读原文

苹果押注的这个新技术,可能改变你听歌的方式

空间音频 vs 3D 电影我一直在等待音乐领域里那个能改变游戏规则的东西。 2021 年,苹果高级副总裁 Eddy Cue 在接受《滚石》杂志采访时表示,「空间音频」就是...
阅读原文

谷歌推出视频生成大型语言模型VideoPoet

点击上方蓝字关注我们“Google推出VideoPoet,一款生成式AI系统,通过文本等输入创建和编辑视频。与竞争模型不同,VideoPoet整合多项功能于单一模型,包括文本...
阅读原文

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

机器之心报道 机器之心编辑部蒙娜丽莎打哈欠,小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频...
阅读原文

霉霉演唱《稻香》,国内团队的Amphion音频生成火了

机器之心专栏 机器之心编辑部香港中文大学(深圳)数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion(安...
阅读原文

谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2

新智元报道编辑:编辑部 【新智元导读】谷歌全新视频生成模型VideoPoet再次引领世界!十秒超长视频生成效果碾压Gen-2,还可进行音频生成,风格转化。AI视频生...
阅读原文

走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

机器之心报道编辑:Panda W最近,有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的惊喜可能...
阅读原文

一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

新智元报道编辑:润 好困【新智元导读】最近,来自南大等机构的研究人员开发了一个通用的框架,用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是...
阅读原文

谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类

新智元报道编辑:编辑部【新智元导读】传说中的Gemini,终于在今天深夜上线了!「原生多模态」架构,是谷歌的史诗级创举,Gemini也如愿在多个领域超越了GPT-4...
阅读原文
13456