标签:音频
谷歌真·AI配音神器来了!自动看懂画面、对齐音频,能为任何视频生成无数音频
谷歌DeepMind发布最新AI视频自动配音工具,AI视频正式开启有声时代! 编译|陈骏达 编辑|程茜 智东西6月18日消息,今日凌晨,谷歌DeepMind发布了一个名为V2A(...
文生视频又开始卷了!Runway、Luma、DeepMind 都有重磅更新
引领了 2024 年文生视频热潮的 Sora,至今没有正式对外开放使用,而其他的文生视频产品,在这半年内开始了疯狂进化。 上周,Luma AI 发布的 Dream Machine 让...
Google DeepMind 最新研究:为AI视频生成创建逼真的背景声音
来源:学术头条 自 Sora 发布以来,国内外各大科技公司和研究机构都在竞相推出“文生视频”大模型,比如生数科技的 Vidu、快手的可灵和 Runway 昨天才发布的 Ge...
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
机器之心报道 编辑:杨文AI圈这遍地开花的大好局面,让吃瓜群众们甚是惊喜。 这几天,大洋彼岸杀疯了! Luma 的热乎劲儿还没过去,昨晚 Runway 就甩出一个王...
霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+
西风 发自 凹非寺量子位 | 公众号 QbitAI一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。 一种名为Hallo的研究火了,GitHub已揽星1k+。 话...
37项SOTA!全模态预训练范式MiCo:理解任何模态并学习通用表示|港中文&中科院
MiCo团队 投稿量子位 | 公众号 QbitAIGPT-4o掀起一股全模态(Omni-modal)热潮,去年的热词多模态仿佛已经不够看了。 要构建全模态智能,意味着能够理解任何...
GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!
夕小瑶科技说 原创作者 | 谢年年多模态大模型视频分析能力榜单出炉: Gemini 1.5 Pro最强,GPT-4o仅排第二? 曾经红极一时的GPT-4V屈居第三。 最近,北大港大...
Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成
机器之心报道 编辑:蛋酱、小舟音频生成领域又有好消息:刚刚,Stability AI 宣布推出开放模型 Stable Audio Open,该模型能够生成高质量的音频数据。项目地...
免费GPT-4o来袭,音频视觉文本实现「大一统」
OpenAI「魔法」降临。作者 | 赖文昕 今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间...
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
机器之心报道 机器之心编辑部ChatGPT 问世才 17 个月,OpenAI 就拿出了科幻电影里的超级 AI,而且完全免费,人人可用。太震撼了! 当各家科技公司还在追赶大...
DeepMusic刘晓光:深度解读AIGC音乐创作技术原理,明年实现一键生成自唱歌曲丨GenAICon 2024
深度解读AIGC音乐创作技术原理,明年实现30秒人声生成自唱歌曲。 2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC应用专场上,DeepMu...
一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕
新智元报道编辑:LRS 【新智元导读】仅需一张照片加一段音频,即可生成具有精确唇音同步、逼真面部行为和自然头部运动的超逼真说话面部视频,并且生成速度快...
在线教程丨刘强东数字人首秀交易额破5千万!用GeneFace++ 生成实时说话数字人
作者:十九 编辑:李宝珠,三羊 封面图来源:GeneFace++ GeneFace++:输入一段语音,就能生成目标人脸的说话视频。近日,京东创始人刘强东化身「采销东哥 AI ...
微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人
新智元报道编辑:LRS 【新智元导读】想要做出一段能够「以假乱真的人物说话视频」的门槛到底低到什么程度了?仅需一张照片加一段音频,就能生成一段堪称真实...
微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA
夕小瑶科技说 原创作者 | 任同学还记得阿里巴巴那个让照片说话的EMO项目吗?如果还没有看过相关的报道,可以看一下我们之前发过的文章哦: 比阿里EMO抢先开源...