标签:语音

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

MiniMax不藏了,大秀视频/语音/文本全模态模型家族,“每天与世界交互30亿次”

明敏 衡宇 发自 凹非寺量子位 | 公众号 QbitAI终于,MiniMax不藏了。 首次正式公开亮相,最强大模型、最亮眼产品战绩,全部对外展示。 模型全家桶最新版齐上...
阅读原文

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

新智元报道编辑:编辑部 【新智元导读】OpenAI的「Her」还是期货,讯飞星火版「Her」就抢先上线了!不仅极速响应自由打断,还情绪价值拉满,各种情感、风格、...
阅读原文

失语四年,AI帮他重新“开口”说话

大数据文摘授权转载自学术头条 撰文:马雪薇肌萎缩侧索硬化(ALS),又名渐冻症,是一种神经系统罕见病,被世界卫生组织(WHO)列为与艾滋病、癌症等并列的 5...
阅读原文

大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!

机器之心发布 机器之心编辑部2024 火山引擎 AI 创新巡展上海站于近日举办,活动展示了豆包大模型在综合评分、语音识别等方面的效果提升,还发布了对话式 AI ...
阅读原文

豆包版《Her》升级上新!随时打断,交流自然,还是开箱即用的那种

允中 发自 凹非寺量子位 | 公众号 QbitAI豆包大模型应用落地,又有新进展。 8月21日,火山引擎在AI创新巡展活动上发布了豆包大模型的一系列产品升级。 据活动...
阅读原文

英伟达首个AI NPC入驻游戏,国产大作,4B模型只需2G显存

机器之心报道 编辑:泽南玩家都在问:游戏什么时候上线?大模型驱动的游戏 NPC 终于落地了。 今天凌晨,英伟达放出一段游戏 demo。现在打游戏,你可以用语音...
阅读原文

准确率97%,将大脑信号转化为语音,新型脑机接口让失语者「说话」

来源:ScienceAI 编辑:萝卜皮 肌萎缩性脊髓侧索硬化症又称渐冻人症(ALS),会影响控制全身运动的神经细胞。这种疾病会导致患者逐渐丧失站立、行走和使用双...
阅读原文

1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!

本周学术界瞩目的焦点,无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者,大家汇聚一堂,共同探讨和分享最新学术成果。 官方公布...
阅读原文

谷歌「Her」来啦!发布Gemini Live语音模式,现场演示两次翻车

夕小瑶科技说 原创作者 | 海野重磅惊喜! 今天,在MadeByGoogle发布会上,谷歌公布了 AI语音助手 Gemini Live,对标的正是GPT-4o,而且是两周前开放测试的语...
阅读原文

谷歌版Her抢跑!一键召唤Gemini,全球52亿终端被颠覆

新智元报道编辑:编辑部 【新智元导读】谷歌版Her,抢先OpenAI登场了?谷歌语音模型Gemini Live,即将在全球30亿安卓和22亿iOS设备中上线。虽然现场演示依旧...
阅读原文

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉

新智元报道编辑:编辑部 【新智元导读】五颗草莓到底指什么?盼了一天一夜,OpenAI只发来一份32页安全报告。报告揭露:在少数情况下,GPT-4o会模仿你的声音说...
阅读原文

无比顺滑!告别TTS!贾扬清领衔的Lepton AI推出实时语音交互

夕小瑶科技说 分享作者 | 谷雨龙泽事到如今,各种AI助手满天飞,语音功能也不是什么稀罕物了。 “明天早上会不会下雨?” “导航去火车站” “帮我预订××餐厅的桌...
阅读原文

地表最强人形机器人问世!擎天柱头号劲敌,每天工作20小时,前代已进宝马打工

OpenAI英伟达微软都投的人形机器人,更酷炫了。 作者|香草 编辑|心缘 智东西8月7日报道,昨晚,由微软OpenAI英伟达英特尔联手投资的明星机器人创企Figure,发...
阅读原文
1234512