突破万字长文输出瓶颈！清华大学开源 LongWriter-6k 数据集；7 个 CCF A 类顶会即将截稿

AIGC动态2年前 (2024)发布 HyperAI超神经

AIGC动态欢迎阅读

原标题：突破万字长文输出瓶颈！清华大学开源 LongWriter-6k 数据集；7 个 CCF A 类顶会即将截稿
关键字：解读,数据,报告,图像,模型
文章来源：HyperAI超神经
内容字数：0字

内容摘要：

当前的长上下文大模型虽能处理海量文本的输入，但由于长输出示例的匮乏，使其在生成长篇内容时却力不从心。为解决这个问题，清华大学的研究团队构建了 LongWriter-6k 数据集，能够将大模型的最大输出窗口大小扩展至 10,000+ 字！
借助 LongWriter-6k 训练的模型，不仅在小说创作中可以生成情节跌宕起伏、篇幅超长的精彩小说，让读者沉浸在一个宏大的文学世界中；在学术研究方面，它还能够生成详尽的研究报告和论文综述，为科研人员提供丰富的参考资料。
hyper.ai 官网现已上线「LongWriter-6k 长上下文输出数据集」，还支持在线使用，下拉文章获取链接~
8 月 19 日-8 月 23 日，hyper.ai 官网更新速览：
*优质公共数据集：10 个
* 优质教程精选：2 个
* 社区文章精选：2 篇
* 热门百科词条：5 条
* 9 月截稿顶会：7 个
访问官网：hyper.ai公共数据集精选1.LongWriter-6k 长上下文输出数据集
该数据集包含 6k 篇 SFT 数据，输出长度为 2k-32k 字（包括英文和中文），可支持训练 LLM，将其最大输出窗口大

原文链接：突破万字长文输出瓶颈！清华大学开源 LongWriter-6k 数据集；7 个 CCF A 类顶会即将截稿