标签：音频

谷歌深夜放复仇杀器Gemini，最强原生多模态史诗级碾压GPT-4！语言理解首超人类

新智元报道编辑：编辑部【新智元导读】传说中的Gemini，终于在今天深夜上线了！「原生多模态」架构，是谷歌的史诗级创举，Gemini也如愿在多个领域超越了GPT-4...

阅读原文

AIGC动态

3年前 (2023)

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

机器之心报道机器之心编辑部性能优于规模更大的模型。多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态，多模态模型需要组合不同来源的...

阅读原文

AIGC动态

3年前 (2023)

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

机器之心报道编辑：Panda、陈萍差不多已经掌握语言能力的大模型正在进军视觉领域，但具有里程碑意义的 GPT-4V 也仍有诸多不足之处，参阅《》。近日，微软 Azu...

阅读原文

AIGC动态

3年前 (2023)

浙大拿下唯一最佳论文奖，中国团队喜获三项大奖！ACM MultiMedia 2023奖项揭幕

新智元报道编辑：LRS【新智元导读】ACM MM 2023上中国团队获三项大奖，多媒体领域再获新突破。近日，2023 ACM MultiMedia会议落下帷幕，中国大陆团队在这次国...

阅读原文

AIGC动态

3年前 (2023)

多媒体顶会ACM Multimedia 2023各大奖项揭晓！浙大获最佳论文，昆士兰获最佳学生论文

【导读】第31届ACM国际多媒体会议（ACM MM）于2023年10月29日至11月2日加拿大渥太华举行。最佳论文，最佳学生论文，最佳demo，最佳开源软件在内的所有多媒体...

阅读原文

AIGC动态

3年前 (2023)

爆料！马斯克 xAI 打造的ChatGPT竞品被曝光！

夕小瑶科技说原创作者 | 王二狗马斯克旗下公司 xAI 的第一款AI模型曝光！名为：Grōk ，有望成为ChatGPT最强竞品！Grōk是什么意思呢？二狗我问了一下GPT-4：G...

阅读原文

AIGC动态

3年前 (2023)

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

机器之心报道编辑：张倩模型小了，幻觉还减轻了。前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。这些视...

阅读原文

AIGC动态

3年前 (2023)

Suno Ai : 文本转歌曲不再难！媲美真实歌手，音乐界的Midjourney？

Suno Ai工具介绍：Suno是一家专门从文本生成AI音频的美国创业公司。该公司最近推出了最新的文本到歌曲模型Chirp v1，它可以根据风格和歌词生成音乐，包括人声...

阅读原文

AIGC动态

3年前 (2023)

被 TWS 耳机剪掉的耳机线，什么时候还给我？

无线胜有线传输是关键智能手机的 Hi-Fi 就像燎原的野火一般，从智能手机的草原上匆匆掠过，烧得猛烈，也落得悲凉。如果要寻求手机 Hi-Fi 突然走向下坡路的时...

阅读原文

AIGC动态

3年前 (2023)

输入文本就能生成音乐，Stability AI发布音乐生成工具Stable Audio

Stability AI 是一家专注于开源 AI 模型的创业公司，其旗下的 Stable Diffusion 是如今最好的图片生成AI之一。9月14日，著名开源平台Stability AI在官网发布...

阅读原文

AIGC动态

3年前 (2023)

几行代码，几秒钟就能生成令人惊叹的音频样本！HuggingFace推出音频生成Pipeline

夕小瑶科技说原创编辑 | 谢年年音频是我们日常生活中不可或缺的一部分，而如今，AI+音频带来了前所未有的体验。通过AI技术，只需简单地输入一些文本提示就可...

阅读原文

AIGC动态

3年前 (2023)

1…4 56