标签：音频

任意论文一键变播客，谷歌正式发布Illuminate，它能重构研究者的学习方式吗？

机器之心报道编辑：陈陈、蛋酱像听书一样「读」论文。‍先来听一段英文播客，内容是不是很熟悉？是的，这俩人就是在聊那篇《Attention is All You Need》。在...

阅读原文

AIGC动态

2年前 (2024)

GPT-4结合SAM2：免训练多模态分割的全新解决方案！| 已开源

北京航空航天大学李红羽投稿凹非寺量子位 | 公众号 QbitAI免训练多模态分割领域有了新突破！中科院信工所、北航、合工大、美团等单位联合提出了一种名为A...

阅读原文

AIGC动态

2年前 (2024)

腾讯版GPT-4o开源平替方案：VITA

生成式AI时代最火AI芯片峰会下月来袭！9月6-7日，智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...

阅读原文

AIGC动态

2年前 (2024)

别等GPT-4o啦，国产「开源版」GPT-4o 来了！支持全模态、无障碍交流

夕小瑶科技说原创作者 | 谢年年腾讯最近的多模态进展有点子“一路高歌”，先是腾讯元宝升级了一波多模态能力，就差把GPT-4o从榜一拉下来了。最近，又搞了一个...

阅读原文

AIGC动态

2年前 (2024)

浙江大学发布全能多模态大模型OmniBind，刷榜13大benchmark

夕小瑶科技说原创作者 | Richard在人工智能快速发展的今天，多模态大模型成为了研究的热点。近日，浙江大学的研究团队在这一领域取得了重大突破，发布了名为...

阅读原文

AIGC动态

2年前 (2024)

没有等来OpenAI开源GPT-4o，等来了开源版VITA

机器之心报道机器之心编辑部开源领域又传来好消息。大语言模型 (LLM) 经历了重大的演变，最近，我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展，它们表现...

阅读原文

AIGC动态

2年前 (2024)

奥特曼「草莓」模型跳票，OpenAI凌晨大新闻，把网友整懵了

机器之心报道编辑：泽南、杜伟GPT-5 大模型？不要太着急。昨晚，很多人彻夜未眠，都在等待 OpenAI 的「大新闻」。因为在本周三，OpenAI 创始人、CEO 山姆・...

阅读原文

AIGC动态

2年前 (2024)

ChatGPT会不受控制克隆你的声音！OpenAI公开红队测试报告

衡宇发自凹非寺量子位 | 公众号 QbitAIGPT-4o的怪癖暴露了，还是被官方公开的！你和它语音电话，它会悄悄学你说话的声音，效果堪称“克隆”，生动逼真到一毛...

阅读原文

AIGC动态

2年前 (2024)

无比顺滑！告别TTS！贾扬清领衔的Lepton AI推出实时语音交互

夕小瑶科技说分享作者 | 谷雨龙泽事到如今，各种AI助手满天飞，语音功能也不是什么稀罕物了。 “明天早上会不会下雨？” “导航去火车站” “帮我预订××餐厅的桌...

阅读原文

AIGC动态

2年前 (2024)

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024

新智元报道编辑：LRST 好困【新智元导读】音视频大语言模型在处理视频内容时，往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新：音视频编码和...

阅读原文

AIGC动态

2年前 (2024)

OpenAI发起价格战邀请，百万输入tokens只需一块钱！

夕小瑶科技说原创作者 | 海野 Claude 3.5上线后，很多人纷纷取消订阅OpenAI的ChatGPT Plus，转而去投入Claude的怀抱。 OpenAI坐不住了。再不拿点新东西出来...

阅读原文

AIGC动态

2年前 (2024)

8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功

文章转载自「机器之心」。最近，一个对标 GPT-4o 的开源实时语音多模态模型火了。这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai，模型...

阅读原文

AIGC动态

2年前 (2024)

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

FunAudioLLM团队投稿量子位 | 公众号 QbitAIOpenAI迟迟不上线GPT-4o语音助手，其它音频生成大模型成果倒是一波接着一波发布，关键还是开源的。刚刚，阿里通...

阅读原文

AIGC动态

2年前 (2024)

成立半年就敢踢馆 OpenAI ，首个开源模型不输 GPT-4o，LeCun 、PyTorch 之父齐声叫好！

整理 | 华卫想象一下，一个 AI 模型可以表达 70 多种情绪，以不同的风格说话，甚至令人信服地模仿口音。并且，它能够同时处理两个音频流，同时听和说。这不...

阅读原文

AIGC动态

2年前 (2024)

8人小团队单挑OpenAI，半年仿出GPT-4o，还开源了

机器之心报道机器之心编辑部最近，一个对标 GPT-4o 的开源实时语音多模态模型火了。这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai，...

阅读原文

AIGC动态

2年前 (2024)

123 4…6