语音 - 第 2 页

OpenAI DevDay公布五项重大创新，AI实时语音的时代来了！成本比GPT-3降低近1000倍！

OpenAI在昨天的DevDay上，公布了五项重大创新：实时API、提示词缓存、模型蒸馏、视觉微调、新广场玩法。这些新能力似乎预示了OpenAI的战略重心的变化——加大...

阅读原文

AIGC动态

2年前 (2024)

乏善可陈的第二届OpenAI开发者大会，果然没有掀起太澜

机器之心报道编辑：杨文、杜伟OpenAI宫斗后的 DevDay 开发者大会，没有什么惊喜。OpenAI 的宫斗大戏刚落下帷幕，今日凌晨就在旧金山召开了第二届 DevDay 开...

阅读原文

AIGC动态

2年前 (2024)

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

OpenAI DevDay：Realtime 实时多模态 API、缓存折扣、视觉微调，全是利好开发者的

OpenAI在昨天的DevDay上，公布了五项重大创新：实时API、提示词缓存、模型蒸馏、视觉微调、新广场玩法。这些新能力似乎预示了OpenAI的战略重心的变化——加大...

阅读原文

AIGC动态

2年前 (2024)

AI音频成诈骗神器！律师父亲险被骗走21万，3秒原声即可克隆声音

新智元报道编辑：编辑部 HXY 【新智元导读】Deepfake到底有多可怕？国外一名律师的父亲，险些陷入一场巨大AI骗局。诈骗者借助AI克隆其儿子的声音，伪造车祸事...

阅读原文

AIGC动态

2年前 (2024)

三只羊卢总的醉酒录音，说方言吐脏话，AI合成能到吗

夕小瑶科技说原创作者 | 付奶茶家人们，大家最近刷三只羊的瓜么了！先是骗人造假卖月饼后面又出录音门。月饼这个事非常可恨，一点没得洗。但是就在昨晚，...

阅读原文

AIGC动态

2年前 (2024)

150万条多语种音频数据！浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护｜CCS 2024

新智元报道编辑：LRST 【新智元导读】SafeEar是一种内容隐私保护的语音伪造检测方法，其核心是设计基于神经音频编解码器的解耦模型，分离语音声学与语义信息...

阅读原文

AIGC动态

2年前 (2024)

OpenAI 「Her」高级语音功能全开放！重庆话、北京儿话都贼溜！

夕小瑶科技说原创作者 | 付奶茶OpenAI的Her终于全面开放了！今日凌晨，OpenAI公开宣布Her高级语音模式正式全面开放，在OpenAI的移动端APP上即可体验！面向...

阅读原文

AIGC动态

2年前 (2024)

终于来了！OpenAI开放GPT-4o高级语音，还用中文说「对不起」

机器之心报道编辑：陈陈这项高级语音功能，大家可是等了好久。谷歌又被 OpenAI 截胡了。前脚谷歌刚刚升级完两款模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Fla...

阅读原文

AIGC动态

2年前 (2024)

开源版GPT-4o来了，AI大神Karpathy盛赞！67页技术报告全公开

新智元报道编辑：alan 【新智元导读】两个多月前那个对标GPT-4o的端到端语音模型，终于开源了。大神Karpathy体验之后表示：nice！前段时间技惊四座、剑指GPT-...

阅读原文

AIGC动态

2年前 (2024)

车圈最大AI「黑马」吉利：自研语音大模型登顶，性能超SOTA 10%

贾浩楠发自凹非寺量子位 | 公众号 QbitAI语音合成大模型赛道，王者一夜易主。最新HAM-TTS大模型，在发音准确性、自然度和说话人相似度上对比之前SOTA成果V...

阅读原文

AIGC动态

2年前 (2024)

仅用4块GPU、不到3天训练出「开源版GPT-4o」，这是国内团队最新研究

机器之心报道编辑：小舟、陈陈LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，响应延迟低至 226ms，低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatG...

阅读原文

AIGC动态

2年前 (2024)

「Her」主创官宣离职OpenAI，奥特曼真留不住技术人才

鱼羊发自凹非寺量子位 | 公众号 QbitAI在OpenAI最早提出打造「Her」想法的的人，也离职创业了。 Alexis Conneau（亚历克西斯・康诺），OpenAI版「Her」技术...

阅读原文

AIGC动态

2年前 (2024)

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

新智元报道编辑：乔杨 Frey 【新智元导读】虽然OpenAI的「Her」还是期货，但硅谷的科技巨头们已经开始相继发力语音模型。前有谷歌的Gemini Live和苹果的升级...

阅读原文

AIGC动态

2年前 (2024)

外滩大会上，AI应用落地的N种观点｜甲子光年

“AI应用最大的共识是，没有共识。”作者｜赵健‍‍ 每年在上海举办的外滩大会，是具有全球影响力的金融科技和前沿科技大会之一，今年已是第三届。本届外滩大会...

阅读原文

AIGC动态

2年前 (2024)

标签：语音