666条数据教会AI写万字长文！模型数据集都开源

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：666条数据教会AI写万字长文！模型数据集都开源
关键字：数据,模型,长度,文本,团队
文章来源：量子位
内容字数：0字

内容摘要：

魔搭ModelScope团队投稿量子位 | 公众号 QbitAI仅需600多条数据，就能训练自己的长输出模型了？！
事情是酱婶儿的——
虽然大模型的上下文(Context)支持越来越长，但包括GPT-4o，Llama-3.1-70B，Claude 3.5 Sonnet在内的这些业界领先模型，在用户指定所需输出长度的情况下，其最大输出长度仍无法满足要求。
例如，针对“写一篇关于罗马帝国历史的10000字文章”的要求，所有这些通用模型在输出长度上均无法超过2000字。
对此，基于GLM4-9B，智谱通过构建长输出的训练数据得到了LongWriter-GLM4-9B模型，能够应对超长输出（10000+ words）场景。
与此同时，智谱开源了训练该模型所需的长输出文本数据集LongWriter-6K。
现在，魔搭社区上基于LongWriter-6K过滤精选了666条数据（LongWriter-6K-Filtered），也一并开源了。
有啥用？？
一句话，使用该数据集，你就能在自己的模型中集成长输出能力了。
LongWriter数据生成与模型训练通过分析训练SFT数据，团队发现对于“模型无法

原文链接：666条数据教会AI写万字长文！模型数据集都开源