车圈最大AI「黑马」吉利：自研语音大模型登顶，性能超SOTA 10%

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：车圈最大AI「黑马」吉利：自研语音大模型登顶，性能超SOTA 10%
关键字：模型,语音,吉利,解读,音色
文章来源：量子位
内容字数：0字

内容摘要：

贾浩楠发自凹非寺量子位 | 公众号 QbitAI语音合成大模型赛道，王者一夜易主。
最新HAM-TTS大模型，在发音准确性、自然度和说话人相似度上对比之前SOTA成果VALL-E，有了大幅提升。
背后的主要科研团队却是LLM赛道今年最令人意外的一匹“黑马”：
吉利汽车。
没错，不是AI原生公司，不是传统的科技巨头，是以汽车知名但正在不断展现硬科技实力的吉利。
吉利星睿AI大模型，有什么用？吉利自研语音大模型HAM-TTS的全称是：
Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech，直译是基于token的零样本文字转语音分层声学建模，是星睿AI大模型体系下的重要一员。顾名思义，对于智能座舱体验来说，这项技术作用在最关键的交互环节：“发音”。
语音助手说的好不好，通常有这么几个评价指标：
发音准确度，通过Character Error Rate（CER）来评判，具体由知名端到端语音模型平台ESPNet来打分。
说话风格的一致性NMOS、音调一致性SMOS，以及整体分数MOS，是由研究团队招募的

原文链接：车圈最大AI「黑马」吉利：自研语音大模型登顶，性能超SOTA 10%