Chinese-LiPS

Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集

Chinese-LiPS

Chinese-LiPS 是一个由智源研究院与南开大手开发的高质量中文多模态语音识别数据集，涵盖了100小时的语音、视频以及手动转录文本。该数据集创新性地将唇读视频与演讲者的幻灯片内容相结合，幻灯片由领域专家精心设计，确保视觉内容的高质量和丰富性。通过融合唇读和幻灯片信息，Chinese-LiPS 显著提升了语音识别的性能。实验结果显示，唇读和幻灯片信息的结合可以分别提升语音识别性能约8%和25%，两者共同使用时，则可实现约35%的性能提升。这使得该数据集在中文讲解、科普、教学和知识传播等复杂语境中具有重要的应用价值。

Chinese-LiPS是什么

Chinese-LiPS 是智源研究院与南开大合开发的高质量中文多模态语音识别数据集，包含100小时的语音、视频和手动转录文本。数据集独特地结合了唇读视频和演讲者的幻灯片内容，幻灯片由领域专家精心设计，确保了视觉内容的质量与多样性。通过整合唇读信息和幻灯片信息，Chinese-LiPS 有效提升了语音识别系统的性能。实验表明，唇读信息和幻灯片信息分别可使语音识别性能提高约8%和25%，而两者结合使用则可提升约35%。该数据集适用于中文讲解、科普、教学和知识传播等复杂应用场景。

Chinese-LiPS的主要功能

提升语音识别性能：通过融合唇读信息和幻灯片语义内容，Chinese-LiPS 显著提升了语音识别系统的准确性。实验结果显示，唇读信息能减少约8%的字符错误率，而幻灯片信息则能减少约25%，两者结合使用可降低约35%的错误率。
减少错误类型：唇读信息在降低删除错误方面发挥了关键作用，能够捕捉与发音相关的细微细节，补充语音识别中常常遗漏的部分，如填充词和因犹豫而未完整表达的语音片段。幻灯片信息则显著降低了替换错误，为模型提供了丰富的语义和上下文信息，尤其在识别专业术语和地名等特定领域词汇时，提供了重要的识别线索。
提供高质量多模态数据：作为一个高质量的多模态中文语音识别数据集，Chinese-LiPS 包含100小时的语音、视频以及相应的手动转录。该数据集全面支持音频视觉语音识别任务的深入研究。

Chinese-LiPS的项目地址

项目官网：https://data.baai.ac.cn/datadetail/Chinese-LiPS
Github仓库：https://github.com/flageval-baai/Chinese-LiPS
HuggingFace模型库：https://huggingface.co/datasets/BAAI/Chinese-LiPS
arXiv技术论文：https://arxiv.org/pdf/2504.15066

Chinese-LiPS的应用场景

虚拟教师：利用该数据集，开发者可以制作互动式语言学习材料，使虚拟教师的讲解更加生动。通过结合唇读信息和幻灯片语义，虚拟教师能够更自然地呈现教学内容，从而提升教学效果。
智能辅导：在智能辅导系统中，基于多模态语音识别技术，能够更准确地理解学生的问题与需求，提供更加个性化的辅导方案。
博物馆、展览馆讲解：在博物馆和展览馆等场所，虚拟讲解人可以使用数据集提供的多模态信息，更生动、准确地介绍展品和展览内容，提升观众的参观体验。
企业产品介绍：企业可利用数据集制作虚拟讲解人，用于产品介绍和培训等场景，提升信息传递的效率和准确性。