标签:音频

走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

机器之心报道编辑:Panda W最近,有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的惊喜可能...
阅读原文

一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

新智元报道编辑:润 好困【新智元导读】最近,来自南大等机构的研究人员开发了一个通用的框架,用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是...
阅读原文

谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类

新智元报道编辑:编辑部【新智元导读】传说中的Gemini,终于在今天深夜上线了!「原生多模态」架构,是谷歌的史诗级创举,Gemini也如愿在多个领域超越了GPT-4...
阅读原文

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

机器之心报道机器之心编辑部性能优于规模更大的模型。多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的...
阅读原文

微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题

机器之心报道编辑:Panda、陈萍差不多已经掌握语言能力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《》。近日,微软 Azu...
阅读原文

浙大拿下唯一最佳论文奖,中国团队喜获三项大奖!ACM MultiMedia 2023奖项揭幕

新智元报道编辑:LRS【新智元导读】ACM MM 2023上中国团队获三项大奖,多媒体领域再获新突破。近日,2023 ACM MultiMedia会议落下帷幕,中国大陆团队在这次国...
阅读原文

多媒体顶会ACM Multimedia 2023各大奖项揭晓!浙大获最佳论文,昆士兰获最佳学生论文

【导读】第31届ACM国际多媒体会议(ACM MM)于2023年10月29日至11月2日加拿大渥太华举行。最佳论文,最佳学生论文,最佳demo, 最佳开源软件在内的所有多媒体...
阅读原文

爆料!马斯克 xAI 打造的ChatGPT竞品被曝光!

夕小瑶科技说 原创作者 | 王二狗马斯克旗下公司 xAI 的第一款AI模型曝光!名为:Grōk ,有望成为ChatGPT最强竞品!Grōk是什么意思呢?二狗我问了一下GPT-4:G...
阅读原文

两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速

机器之心报道编辑:张倩模型小了,幻觉还减轻了。前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视...
阅读原文

Suno Ai : 文本转歌曲不再难!媲美真实歌手,音乐界的Midjourney?

Suno Ai工具介绍:Suno是一家专门从文本生成AI音频的美国创业公司。该公司最近推出了最新的文本到歌曲模型Chirp v1,它可以根据风格和歌词生成音乐,包括人声...
阅读原文

被 TWS 耳机剪掉的耳机线,什么时候还给我?

无线胜有线传输是关键智能手机的 Hi-Fi 就像燎原的野火一般,从智能手机的草原上匆匆掠过,烧得猛烈,也落得悲凉。如果要寻求手机 Hi-Fi 突然走向下坡路的时...
阅读原文

输入文本就能生成音乐,Stability AI发布音乐生成工具Stable Audio

Stability AI 是一家专注于开源 AI 模型的创业公司,其旗下的 Stable Diffusion 是如今最好的图片生成AI之一。9月14日,著名开源平台Stability AI在官网发布...
阅读原文

几行代码,几秒钟就能生成令人惊叹的音频样本!HuggingFace推出音频生成Pipeline

夕小瑶科技说 原创编辑 | 谢年年音频是我们日常生活中不可或缺的一部分,而如今,AI+音频带来了前所未有的体验。通过AI技术,只需简单地输入一些文本提示就可...
阅读原文
1345