PodAgent

PodAgent – 港中文、微软、小红书联合推出的播客生成框架

PodAgent是什么

PodAgent 是由香港中文大学、微软和小红书联合开发的一款播客生成框架。该框架模拟真实的脱口秀环境，利用多智能体协作系统（包括主持人、嘉宾和编剧）自动生成丰富且结构化的对话内容。PodAgent还构建了多样化的声音库，以精确匹配角色与声音，确保音频的自然性和沉浸感。此外，PodAgent引入了基于大语言模型（LLM）的语音合成技术，能够生成富有表现力与情感的语音，使播客更具吸引力。它还推出了一套全面的评估指标，以衡量生成播客的质量，从而确保内容的专业性和多样性。

PodAgent

PodAgent的主要功能

高质量对话生成：自动生成丰富多样的对话脚本，涵盖各类主题。
声音角色匹配：根据角色特性和内容背景，动态匹配最合适的声音。
语音合成与情感增强：根据对话内容的情绪与语境，调整语音的语调、节奏与情感，使播客更加生动。
完整播客结构生成：支持添加适合的音效和背景音乐，生成完整的播客结构，且可进行多语言生成，以适应不同场合和听众需求。
评估与优化工具：提供详尽的评估指标，衡量生成播客的质量，包括对话内容的丰富性、声音匹配的精确度及语音表现力。

PodAgent的技术原理

多智能体协作系统：
- 主持人：负责制定对话大纲，引导讨论话题。
- 嘉宾：根据角色设定提供专业见解与观点。
- 编剧：整合对话内容，优化脚本的连贯性与多样性。
声音特征分析与匹配：搭建声音库，分析声音特征（如音色、语调、情感等），为每个角色匹配最合适的声音。利用开源数据集（如 LibriTTS 和 AISHELL-3）提取声音样本，经过去重和筛选生成多样化的声音库。
基于LLM的语音合成：通过基于大语言模型（LLM）的语音合成技术，将文本内容转化为自然且富有表现力的语音。将LLM预测的说话风格作为指令，指导语音合成模型（如 CosyVoice）生成与内容情绪相匹配的语音。
综合评估指标：推出一套评估指标，用于衡量生成播客的质量，包括对话内容的词汇多样性、语义丰富度、信息密度，以及声音匹配的精确性和语音的表现力。基于 LLM 作为评估工具，对生成内容进行对比和评分。