GTSinger – 浙大开源的大型多语言高质量歌声数据集

GTSinger是一个由浙江大学研究团队开发的大型开源高质量歌声数据集，旨在支持多种歌声任务。该数据集包含80.59小时的专业录音棚录制的歌声，涵盖九种语言，包括汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利语，由20位专业歌手演唱，展现出丰富的音色和风格多样性。

GTSinger是什么

GTSinger是浙江大学研究团队推出的一款大型开源高质量歌声数据集，专注于支持多元化的歌声相关任务。该数据集包含80.59小时的专业录音棚录制的歌声，覆盖九种不同的语言，包括汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利语，所有录音均由20位专业歌手演唱，呈现出丰富多彩的音色与风格。GTSinger特别关注歌唱技巧的控制与建模，提供六种常用歌唱技巧的对照组和音素级标注，并附有真实乐谱，便于实际音乐创作。数据集还包括人工音素对齐、全局风格标签及配对朗读数据，适应各种歌声任务。

GTSinger - 浙大开源的大型多语言高质量歌声数据集

GTSinger的主要功能

多语言歌声数据集：GTSinger提供九种不同语言的歌声，支持跨语言的歌声合成与分析，展现多样的音色和风格。
歌唱技巧控制：该数据集提供六种常用歌唱技巧的对照组和音素级标注，帮助研究者更好地建模和控制歌声中的技巧。
真实乐谱支持：伴随歌声提供匹配的真实乐谱，为歌声合成技术在实际音乐创作中的应用提供便利。
多任务适配：GTSinger设计支持多种歌声任务，包括歌声合成、技巧识别、风格迁移及语音转歌声等。
基准测试：数据集提供基准测试，用于评估在不同歌声任务下的表现和适用性。

GTSinger的技术原理

高质量音频录制：GTSinger的数据集在专业录音棚中录制，确保音频数据的高品质。
音素对齐与标注：应用音乐信息检索技术（如MFA和Praat）进行音素对齐与标注，实现音素级的精确控制。
歌唱技巧标注：通过专家听感和音频分析技术对歌声中的歌唱技巧进行标注，便于模型学习与控制。
乐谱生成：结合音频信号处理技术与音乐理论，从歌声中提取音高信息，生成MIDI形式的乐谱，并由专家调整为真实乐谱。
数据集构建与验证：通过人工审核和后期处理，确保数据集的质量与适用性，包括音频片段的语义分割和无声区域的处理。

GTSinger的项目地址

项目官网：gtsinger.github.io
GitHub仓库：https://github.com/GTSinger/GTSinger
HuggingFace模型库：https://huggingface.co/datasets/GTSinger/GTSinger
arXiv技术论文：https://arxiv.org/pdf/2409.13832

GTSinger的应用场景

歌声合成：基于数据集中的歌声样本和技巧标注，开发出合成特定技巧和风格的高质量歌声的系统。
歌声技巧识别：分析歌声中的音素级技巧标注，训练模型识别与分类不同的歌声技巧。
歌声风格迁移：将一种风格的歌声转换为另一种风格，例如将流行歌曲的歌声转化为古典风格。
语音转歌声（Speech-to-Singing,STS）：将普通语音转化为旋律化的歌声，应用于语音合成和音乐创作。
音乐教育：利用数据集中的真实乐谱和歌声样本，开发音乐教育工具，帮助学生学习与练习唱歌技巧。

阅读原文

# AI工具 # AI项目和框架 # 个性化音乐推荐 # 歌词生成 # 演唱风格模拟 # 音乐风格转换 # 音频效果处理

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

GTSinger – 浙大开源的大型多语言高质量歌声数据集

GTSinger是什么

GTSinger的主要功能

GTSinger的技术原理

GTSinger的项目地址

GTSinger的应用场景

JobJump - 求职者的AI面试助手，识别面试问题实时答案提示

MLE-bench - OpenAI推出AI代理性能评估的基准测试工具

相关文章

暂无评论

Kimi Chat

ChatGPT

毕业论文生成器

AIGC热点