标签:语音
OpenAI DevDay公布五项重大创新,AI实时语音的时代来了!成本比GPT-3降低近1000倍!
OpenAI在昨天的DevDay上,公布了五项重大创新:实时API、提示词缓存、模型蒸馏、视觉微调、新广场玩法。 这些新能力似乎预示了OpenAI的战略重心的变化——加大...
mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
乏善可陈的第二届OpenAI开发者大会,果然没有掀起太大波澜
机器之心报道 编辑:杨文、杜伟OpenAI宫斗后的 DevDay 开发者大会,没有什么惊喜。OpenAI 的宫斗大戏刚落下帷幕,今日凌晨就在旧金山召开了第二届 DevDay 开...
OpenAI DevDay:Realtime 实时多模态 API、缓存折扣、视觉微调,全是利好开发者的
OpenAI在昨天的DevDay上,公布了五项重大创新:实时API、提示词缓存、模型蒸馏、视觉微调、新广场玩法。 这些新能力似乎预示了OpenAI的战略重心的变化——加大...
AI音频成诈骗神器!律师父亲险被骗走21万,3秒原声即可克隆声音
新智元报道编辑:编辑部 HXY 【新智元导读】Deepfake到底有多可怕?国外一名律师的父亲,险些陷入一场巨大AI骗局。诈骗者借助AI克隆其儿子的声音,伪造车祸事...
三只羊卢总的醉酒录音,说方言吐脏话,AI合成能到吗
夕小瑶科技说 原创作者 | 付奶茶家人们,大家最近刷三只羊的瓜么了! 先是骗人造假卖月饼 后面又出录音门。月饼这个事非常可恨,一点没得洗。但是就在昨晚,...
150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024
新智元报道编辑:LRST 【新智元导读】SafeEar是一种内容隐私保护的语音伪造检测方法,其核心是设计基于神经音频编解码器的解耦模型,分离语音声学与语义信息...
OpenAI 「Her」高级语音功能全开放!重庆话、北京儿话都贼溜!
夕小瑶科技说 原创作者 | 付奶茶OpenAI的Her终于全面开放了! 今日凌晨,OpenAI公开宣布Her高级语音模式正式全面开放,在OpenAI的移动端APP上即可体验! 面向...
终于来了!OpenAI开放GPT-4o高级语音,还用中文说「对不起」
机器之心报道 编辑:陈陈这项高级语音功能,大家可是等了好久。谷歌又被 OpenAI 截胡了。 前脚谷歌刚刚升级完两款模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Fla...
开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开
新智元报道编辑:alan 【新智元导读】两个多月前那个对标GPT-4o的端到端语音模型,终于开源了。大神Karpathy体验之后表示:nice!前段时间技惊四座、剑指GPT-...
车圈最大AI「黑马」吉利:自研语音大模型登顶,性能超SOTA 10%
贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI语音合成大模型赛道,王者一夜易主。 最新HAM-TTS大模型,在发音准确性、自然度和说话人相似度上对比之前SOTA成果V...
仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究
机器之心报道 编辑:小舟、陈陈LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatG...
「Her」主创官宣离职OpenAI,奥特曼真留不住技术人才
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI在OpenAI最早提出打造「Her」想法的的人,也离职创业了。 Alexis Conneau(亚历克西斯・康诺),OpenAI版「Her」技术...
科技巨头打响语音模型之战!亚马逊用Claude升级Alexa,Cerebras语音模式快如闪电
新智元报道编辑:乔杨 Frey 【新智元导读】虽然OpenAI的「Her」还是期货,但硅谷的科技巨头们已经开始相继发力语音模型。前有谷歌的Gemini Live和苹果的升级...
外滩大会上,AI应用落地的N种观点|甲子光年
“AI应用最大的共识是,没有共识。”作者|赵健 每年在上海举办的外滩大会,是具有全球影响力的金融科技和前沿科技大会之一,今年已是第三届。 本届外滩大会...