20K合成数据就能让大模型能力飙升！还能实现模型自我迭代，上海AI Lab数据合成新范式

基于世界知识树打造高质量对话数据

原标题：20K合成数据就能让大模型能力飙升！还能实现模型自我迭代，上海AI Lab数据合成新范式
文章来源：量子位
内容字数：3951字

上海AI Lab提出Condor：基于合成数据提升LLM对话能力

本文总结了上海AI Lab研究团队提出的Condor数据合成引擎，该引擎利用合成数据显著提升了大型语言模型（LLM）Qwen的主观对话能力。Condor通过“世界知识树”和“自我反思”机制，高效生成高质量的监督微调（SFT）数据，并展现出模型性能与数据量正相关的特性，尤其在20K数据量级下取得了显著效果，之后增益趋于平缓。此项研究为LLM数据合成提供了新的范式。

1. Condor数据合成引擎：世界知识树与自我反思

Condor数据合成引擎包含两个阶段：Condor Void和Condor Refine。它巧妙地利用单一LLM完成问题合成、回复合成、回复评价和回复改进等多个角色。核心机制在于：

世界知识树：Condor通过给定关键词，让模型递归生成子关键词，形成知识树。每个节点作为Tag，用于指导后续数据生成，确保指令的多样性和知识覆盖范围。
任务多样性和难度多样性：Condor设计不同问题模板，生成不同类型（日常、角色扮演、创意创作等）和不同难度的问题，提升合成指令的多样性。
自我反思：Condor Refine Pipeline引入自我反思策略，模型对初始回复进行评价和修改，迭代优化回复质量，最终生成高质量SFT数据。

2. 实验结果：显著提升主观对话能力

研究人员使用Qwen2.5-72B-Instruct模型进行数据合成，并用Qwen2.5-7B模型进行SFT训练。实验结果表明：使用Condor合成数据训练的模型在主观对话能力上与Qwen2.5-7B-Instruct具有竞争力，并在主流客观评测基准上保持了性能，显著优于其他基线方法。更重要的是，实验验证了模型性能随着合成数据量增加而提升，在5K到20K数据量区间提升显著，之后增益放缓。

3. 模型自我迭代与性能分析

研究团队还验证了Condor合成数据在模型自我迭代中的作用。使用Condor生成的数据训练7B和72B的基模型，均实现了自我迭代，性能进一步提升。通过对主观评测集按能力维度拆解，发现Condor在Creation、QA和Chat维度上的增益尤为显著。对比分析显示，Condor合成的数据与其他方法相比，能够实现更广泛的知识覆盖，并提升模型回复的拟人化程度和细节。

4. 结论与展望

Condor数据合成引擎为LLM的训练提供了高效、高质量的数据生成方案，成功提升了模型的主观对话能力。然而，高质量推理数据和多轮对话数据的有效合成策略、真实数据和合成数据的协作配比机制，以及如何突破合成数据的Scaling Law等问题，仍有待进一步研究。Condor的合成数据和训练后的模型已开源，方便社区用户进行体验和探索。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # 20K合成数据 # 上海AILab # 大模型能力提升 # 数据合成 # 模型自我迭代

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

20K合成数据就能让大模型能力飙升！还能实现模型自我迭代，上海AI Lab数据合成新范式

基于世界知识树打造高质量对话数据

上海AI Lab提出Condor：基于合成数据提升LLM对话能力

1. Condor数据合成引擎：世界知识树与自我反思

2. 实验结果：显著提升主观对话能力

3. 模型自我迭代与性能分析

4. 结论与展望

联系作者

AAAI 2025丨2080Ti 也能 4K 图像抠图！美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

人工智能的错误与人类的错误有很大不同

相关文章

暂无评论

ChatGPT

玩虚拟模特？

20K合成数据就能让大模型能力飙升！还能实现模型自我迭代，上海AI Lab数据合成新范式

基于世界知识树打造高质量对话数据

上海AI Lab提出Condor：基于合成数据提升LLM对话能力

1. Condor数据合成引擎：世界知识树与自我反思

2. 实验结果：显著提升主观对话能力

3. 模型自我迭代与性能分析

4. 结论与展望

联系作者

AAAI 2025丨2080Ti 也能 4K 图像抠图 ！美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

人工智能的错误与人类的错误有很大不同

相关文章

暂无评论

ChatGPT

玩虚拟模特？

AAAI 2025丨2080Ti 也能 4K 图像抠图！美图&北交大提出超高分辨率自然图像抠图算法 MEMatte