标签：音频

谷歌VideoPoet负责人蒋路跳槽TikTok！对标Sora，AI视频模型大战在即

新智元报道编辑：编辑部【新智元导读】谷歌Research Lead，负责VideoPoet项目的蒋路，即将加入TikTok，负责视频生成AI的开发。谷歌VideoPoet项目Research Le...

阅读原文

AIGC动态

2年前 (2024)

给 Sora 视频配音，ElevenLabs 推出 AI 音效生成功能，离 AI 生成电影又近了一步！

Sora 之后的新突破来了！ AI 语音克隆初创公司 ElevenLabs 宣布即将上线 AI Sound Effects 功能，可以让用户输入 Prompt 自动生成声音。在他们发布的演示短片...

阅读原文

AIGC动态

2年前 (2024)

AI配音版Sora视频刷屏！绝真音效打破「无声电影」，或颠覆万亿美元产业

新智元报道编辑：桃子好困【新智元导读】Sora突破之后的突破又来了！语音初创公司ElevenLabs放大招，直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全...

阅读原文

AIGC动态

2年前 (2024)

音频秒生全身虚拟人像，AI完美驱动面部肢体动作！UC伯克利Meta提出Audio2Photoreal

新智元报道编辑：拉燕【新智元导读】最近，来自Meta和UC伯克利的研究人员，发布了一种最新的音频到人像模型。操作简单，输出极致逼真。就在最近，Meta和UC伯...

阅读原文

AIGC动态

2年前 (2024)

AI反诈！Deepfake音视频检测技术亮相CES，准确率超90%

西风发自凹非寺量子位 | 公众号 QbitAI离大谱，一个标有美国消费者新闻与商业频道CNBC logo的视频称： “每个欧洲人靠ChatGPT，每周能赚3到4千欧元。” “投资...

阅读原文

AIGC动态

2年前 (2024)

字节让达芬奇和蒙娜丽莎“隔空吵架”，只需一张图、一段音频、一个情感片段

允中发自凹非寺量子位 | 公众号 QbitAIAIGC在视频生成领域展现出非凡的潜力。近期，字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-...

阅读原文

AIGC动态

2年前 (2024)

GPT-5前瞻！艾伦人工智能研究所发布最强多模态模型，预测GPT-5新能力

新智元报道编辑：alan 【新智元导读】近日，艾伦人工智能研究所发布了Unified-IO 2，——第一代Unified-IO曾预测了GPT-4等模型的能力，所以我们可以从新一代的...

阅读原文

AIGC动态

2年前 (2024)

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

陈厚伦投稿量子位 | 公众号 QbitAI只需一句话描述，就能在一大段视频中定位到对应片段！比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配...

阅读原文

AIGC动态

2年前 (2024)

苹果押注的这个新技术，可能改变你听歌的方式

空间音频 vs 3D 电影我一直在等待音乐领域里那个能改变游戏规则的东西。 2021 年，苹果高级副总裁 Eddy Cue 在接受《滚石》杂志采访时表示，「空间音频」就是...

阅读原文

AIGC动态

2年前 (2023)

谷歌推出视频生成大型语言模型VideoPoet

点击上方蓝字关注我们“Google推出VideoPoet，一款生成式AI系统，通过文本等输入创建和编辑视频。与竞争模型不同，VideoPoet整合多项功能于单一模型，包括文本...

阅读原文

AIGC动态

3年前 (2023)

视频生成可以无限长？谷歌VideoPoet大模型上线，网友：性技术

机器之心报道机器之心编辑部蒙娜丽莎打哈欠，小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023 年底，科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频...

阅读原文

AIGC动态

3年前 (2023)

霉霉演唱《稻香》，国内团队的Amphion音频生成火了

机器之心专栏机器之心编辑部香港中文大学（深圳）数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion（安...

阅读原文

AIGC动态

3年前 (2023)

谷歌10秒视频生成模型破世界记录！LLM终结扩散模型，效果碾压顶流Gen-2

新智元报道编辑：编辑部【新智元导读】谷歌全新视频生成模型VideoPoet再次引领世界！十秒超长视频生成效果碾压Gen-2，还可进行音频生成，风格转化。AI视频生...

阅读原文

AIGC动态

3年前 (2023)

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

机器之心报道编辑：Panda W最近，有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示，和 GPT 系列之前推出的模型相比，GPT4.5 最大的惊喜可能...

阅读原文

AIGC动态

3年前 (2023)

一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

新智元报道编辑：润好困【新智元导读】最近，来自南大等机构的研究人员开发了一个通用的框架，用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是...

阅读原文

AIGC动态

3年前 (2023)

1…3 456