星火语音同传大模型

AI工具2年前 (2025)发布 AI工具集

星火语音同传大模型 – 科大讯飞推出的端到端语音同传大模型

星火语音同传大模型是什么

星火语音同传大模型是科大讯飞于2025年1月15日推出的国内首个具有端到端语音同传能力的大型模型。该模型在内容的完整性、信息的准确性以及语言的质量方面处于行业领先地位，超过了谷歌Gemini 2.0和OpenAI GPT-4o，能够在5秒以内实现同传，达到人类专家译员的水平。它支持根据需求调整译文长度，并且在语音转文本的过程中实现流式意群切分、语境理解和信息重组。同时，流式语音合成技术使得语音输出具有韵律的自然衔接和自适应语速调节。此外，讯飞星火翻译机还具备记录和回溯对话内容的功能，并能与耳机、音箱等音频设备无缝连接。

星火语音同传大模型

星火语音同传大模型的主要功能

高精度同传翻译：针对日常对话、商务交流及行业翻译等复杂场景，该模型在内容的完整性、信息的准确性及语言质量上均处于领先水平，能够在5秒内实现同传，达到专业译员的翻译水平。
多语种支持：基于统一建模的星火多语种语音识别大模型，支持中文、英语、日语、韩语、俄语、法语、西班牙语、语、德语、葡萄牙语、语等37种语言，并具备自动识别语言的能力。
专有词汇精准翻译：即使是在处理专有词汇时，模型也能流畅而准确地进行翻译，展现出其在复杂语境下的高效处理能力。
译文长度反向调控：允许用户根据实际需求调整译文的长度和详细程度，灵活满足不同场合的需求。
流式意群切分与重组：支持语音到文本的端到端翻译，具备流式意群切分、语境理解和信息重组能力，使翻译结果更加自然和准确。
语音合成优化：流式语音合成技术支持意群韵律的自然衔接和语速的自适应调节，使合成的语音更贴近人类发音。
对话记录回溯：讯飞星火翻译机能够记录对话内容，方便用户保存会议记录或谈判要点。
设备兼容性强：翻译机可轻松连接耳机、音箱等音频设备，满足不同使用场景的需求。

星火语音同传大模型的技术原理

语音识别模块：负责将输入的语音信号转化为文本信息，支持多种语言和方言的识别。
翻译模块：将识别出的文本信息从一种语言翻译为另一种语言，并支持译文长度的反向调控。
语音合成模块：将翻译后的文本信息转换为语音输出，支持流式意群切分、语境理解和信息重组。
自监督学习：模型采用自监督学习的方法，如Masked Language Model (MLM)，通过预测被掩码的单词或字符，从输入文本中自动学义信息和上下文关系。
注意力机制：Transformer模型中的注意力机制使模型能够聚焦于输入序列中的关键信息，提高输出质量。
多层神经网络结构：模型具备多层神经网络结构，包括输入层、隐藏层和输出层，运用递归神经网络（RNN）或长短时记忆网络（LSTM）等技术对特征进行转换与传递。
大规模参数量：模型拥有庞大的参数量，能够处理海量数据，进行复杂的计算和分析。
深度学习算法：模型运用深度学习算法，能够自动从大量数据中学习知识，提高预测和分类的准确性。