交交

AI工具1年前 (2025)更新 AI工具集

交交 – 上海交大推出的口语对话情感大模型

交交是上海交通大学听觉认知与计算声学实验室自主研发的全球首个纯学术口语对话情感大模型。它支持多人实时对话、多语言交流、方言识别、角色扮演、情感互动及知识问答等多项强大功能，兼容汉语、英语、日语、法语等多种语言，并能够精准识别多种中文方言。交交以创新技术为基础，提供端到端的语音对话、多语言理解、多人互动及实时音色克隆，展现出卓越的语音交互能力，为智能语音助手领域带来了新的突破。

交交是什么

交交是由上海交通大学听觉认知与计算声学实验室推出的全球首个完全由学术界自主研发的口语对话情感大模型。它具备多人对话、多语言交流、方言理解、角色扮演、情感互动及知识问答等多种强大功能，支持汉语、英语、日语、法语等多种语言，并能精准识别各种中文方言。交交的技术创新使其能够实现流畅的语音对话、多语言理解、多人互动以及实时的音色克隆，展现出强大的语音交互能力，为智能语音助手领域带来了显著的进展。

交交的主要功能

多人对话：可与多位用户进行自然流畅的对话，精准识别每个用户的身份和发言内容，并提供个性化的回应。
多语言交流：支持汉语、英语、日语和法语等多种主要语言，具备跨语言回复的能力。
角色扮演与情感互动：理解用户情绪并根据对话内容和场景生成富有情感的回应。
知识问答：涵盖广泛的知识领域，如古诗词背诵、科学原理讲解和文学名著解读等。
实时音色克隆：提供高保真的声音模仿技术，支持多角色语音扮演风格，并与用户的自身声音进行实时无感切换。

交交的技术原理

端到端语音对话：采用鲁棒的音频编码器，将音频输入流式编码为离散序列，并与文本序列对齐，无需大规模高质量数据微调，便能保持并利用文本大模型的基础泛化能力，实现实时知识问答。
多语言理解与生成：基于创新的跨模态对齐机制，将多语言语音信号与对应文本在特征空间精准映射，通过隐式表征学习保留语言特异性信息，结合深度语言模型的上下文建模能力，实现跨语言场景下的无缝切换和高效语义理解。
多人对话建模：通过构建多人对话数据模拟真实场景，增强模型的对话处理能力。利用端到端模型融合上下文信息，生成个性化的响应和总结，实现自然且连贯的多方互动。
情感理解与表达：基于上下文信息，运用思维链技术生成符合对话场景的情感全局表征，并生成生动的情感语音回复，提升对话交流的真实感。
实时音色克隆与切换：提供高保真的声音模仿技术，基于思维链技术进行控制信号推理，支持多角色语音扮演风格及与用户自身声音之间的实时无感切换。
灵活拓展：强大的对齐策略支持文本与音频模态的任意方式拼接融合，为集成大规模文本大模型中的多种增强机制（如联网搜索、RAG检索增强生成等）提供统一且可扩展的接口。