GTSinger – 浙大开源的大型多语言高质量歌声数据集

GTSinger是一个由浙江大学研究团队开发的大型开源高质量歌声数据集,旨在支持多种歌声任务。该数据集包含80.59小时的专业录音棚录制的歌声,涵盖九种语言,包括汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利语,由20位专业歌手演唱,展现出丰富的音色和风格多样性。

GTSinger是什么

GTSinger是浙江大学研究团队推出的一款大型开源高质量歌声数据集,专注于支持多元化的歌声相关任务。该数据集包含80.59小时的专业录音棚录制的歌声,覆盖九种不同的语言,包括汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利语,所有录音均由20位专业歌手演唱,呈现出丰富多彩的音色与风格。GTSinger特别关注歌唱技巧的控制与建模,提供六种常用歌唱技巧的对照组和音素级标注,并附有真实乐谱,便于实际音乐创作。数据集还包括人工音素对齐、全局风格标签及配对朗读数据,适应各种歌声任务。

GTSinger - 浙大开源的大型多语言高质量歌声数据集

GTSinger的主要功能

  • 多语言歌声数据集:GTSinger提供九种不同语言的歌声,支持跨语言的歌声合成与分析,展现多样的音色和风格。
  • 歌唱技巧控制:该数据集提供六种常用歌唱技巧的对照组和音素级标注,帮助研究者更好地建模和控制歌声中的技巧。
  • 真实乐谱支持:伴随歌声提供匹配的真实乐谱,为歌声合成技术在实际音乐创作中的应用提供便利。
  • 多任务适配:GTSinger设计支持多种歌声任务,包括歌声合成、技巧识别、风格迁移及语音转歌声等。
  • 基准测试:数据集提供基准测试,用于评估在不同歌声任务下的表现和适用性。

GTSinger的技术原理

  • 高质量音频录制:GTSinger的数据集在专业录音棚中录制,确保音频数据的高品质。
  • 音素对齐与标注:应用音乐信息检索技术(如MFA和Praat)进行音素对齐与标注,实现音素级的精确控制。
  • 歌唱技巧标注:通过专家听感和音频分析技术对歌声中的歌唱技巧进行标注,便于模型学习与控制。
  • 乐谱生成:结合音频信号处理技术与音乐理论,从歌声中提取音高信息,生成MIDI形式的乐谱,并由专家调整为真实乐谱。
  • 数据集构建与验证:通过人工审核和后期处理,确保数据集的质量与适用性,包括音频片段的语义分割和无声区域的处理。

GTSinger的项目地址

GTSinger的应用场景

  • 歌声合成:基于数据集中的歌声样本和技巧标注,开发出合成特定技巧和风格的高质量歌声的系统。
  • 歌声技巧识别:分析歌声中的音素级技巧标注,训练模型识别与分类不同的歌声技巧。
  • 歌声风格迁移:将一种风格的歌声转换为另一种风格,例如将流行歌曲的歌声转化为古典风格。
  • 语音转歌声(Speech-to-Singing,STS):将普通语音转化为旋律化的歌声,应用于语音合成和音乐创作。
  • 音乐教育:利用数据集中的真实乐谱和歌声样本,开发音乐教育工具,帮助学生学习与练习唱歌技巧。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...