标签:语音
ChatGPT版「Her」被玩疯:哭着读诗,中文表现也很亮
金磊 发自 凹非寺量子位 | 公众号 QbitAI上线仅仅一天,GPT-4o的高级语音功能(Advanced Voice Mode)简直要被玩疯了。 无数网友脑洞大开的疯狂测试,GPT-4o...
GPT-4o 语音模式终于来了,首批测试网友已经玩疯了
赶在 7 月结束前,GPT-4o 语音功能终于开启。现开启灰度测试,一小部分 ChatGPT Plus 用户已经可以试用。 如果打开 ChatGPT App 之后看到了下面这个界面,恭...
重磅惊喜!OpenAI突然上线GPT-4o超长输出模型!「Her」高级语音模式已开放测试!
夕小瑶科技说 原创作者 | 海野在最近的大模型战争中,OpenAI似乎很难维持霸主地位。虽然没有具体的数据统计,但Claude3.5出现后,只是看网友们的评论,就能感...
GPT-4o版「Her」终于来了!讲笑话、学猫叫,AI女友能有多撩人?
新智元报道编辑:桃子 好困 【新智元导读】GPT-4o语音功能终于如期而至,科幻版Her走进现实!一些灰度测试到的网友们已经玩疯了,不过,OpenAI目前只给了4种...
OpenAI 发布了一款可以和它交谈的新型 ChatGPT 机器人
点击上方蓝字关注我们OpenAI 正向少数 ChatGPT Plus 订阅用户推出 ChatGPT 的全新高级语音功能。这一在五月份 GPT-4o 发布活动上亮相的功能,因声音与斯嘉丽·...
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
新智元报道编辑:LRST 好困 【新智元导读】音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和...
GPT-4o 最关键功能本周上线,语音交互的时代终于要来了
Voice Agent 是与人类进行对话沟通的 AI,是下一代人机交互界面。和文本相比,声音交互的优势主要体现在: • 语音交互以其与人类自然沟通方式的高度一致性,...
Sam Altman亲自确认:下周开始推送GPT-4o实时语音功能!
9月6-7日,2024全球AI芯片峰会将在北京召开。目前,AMD人工智能事业部高级总监王宏强,清华大学交叉信息研究院助理教授、北极雄芯创始人马恺声,珠海芯动...
OpenAI的《Her》难产,是被什么困住了手脚?
梦晨 发自 凹非寺量子位 | 公众号 QbitAI两个月又两周过去了,我们仍然没有见到公开发布版的OpenAI《Her》。 5月14日,OpenAI发布GPT-4o和端到端实时音视频对...
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
新智元报道编辑:乔杨 【新智元导读】继去年初的第一代VALL-E模型之后,微软最近又上新了VALL-E 2模型,标志着第一个在合成语音稳健性、相似度、自然程度等方...
香港理工大学 MIND 实验室招收进化计算/类脑计算/语音信号处理等方向全奖博士生/博士后
学校简介 香港理工大学 (The Hong Kong Polytechnic University) 是一所位于中国香港的公立综合性研究型大学, 坐落于香港九龙红磡湾。在2024-25年度,香港理...
剑桥大学:基于语音的大模型攻击,轻松“操纵”多模态大模型
夕小瑶科技说 原创作者 | Richard随着人工智能技术的快速发展,基于语音的大模型正在成为一个热门领域。这些模型不仅能实现语音识别,还可以执行翻译等多种任...
阿里开源语音处理模型 FunAudioLLM :50 种语言无缝翻译,还能识别语音情绪
作者 | 赵明华 阿里巴巴通义实验室近日发布并开源了 FunAudioLLM,这是一个旨在增强人与大型语言模型(LLMs)之间自然语音交互的框架,代表了语音处理领域的...
Groq发布超快LLM引擎,速度让英伟达望尘莫及
点击上方蓝字关注我们“Groq公司最新推出的LLM引擎在速度和智能化方面取得突破,其响应速度达到每秒1256.54个token,远超Nvidia GPU,为AI应用部署提供了新的...
阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种
FunAudioLLM团队 投稿量子位 | 公众号 QbitAIOpenAI迟迟不上线GPT-4o语音助手,其它音频生成大模型成果倒是一波接着一波发布,关键还是开源的。 刚刚,阿里通...