突破万字长文输出瓶颈!清华大学开源 LongWriter-6k 数据集;7 个 CCF A 类顶会即将截稿
AIGC动态欢迎阅读
原标题:突破万字长文输出瓶颈!清华大学开源 LongWriter-6k 数据集;7 个 CCF A 类顶会即将截稿
关键字:解读,数据,报告,图像,模型
文章来源:HyperAI超神经
内容字数:0字
内容摘要:
当前的长上下文大模型虽能处理海量文本的输入,但由于长输出示例的匮乏,使其在生成长篇内容时却力不从心。为解决这个问题,清华大学的研究团队构建了 LongWriter-6k 数据集,能够将大模型的最大输出窗口大小扩展至 10,000+ 字!
借助 LongWriter-6k 训练的模型,不仅在小说创作中可以生成情节跌宕起伏、篇幅超长的精彩小说,让读者沉浸在一个宏大的文学世界中;在学术研究方面,它还能够生成详尽的研究报告和论文综述,为科研人员提供丰富的参考资料。
hyper.ai 官网现已上线「LongWriter-6k 长上下文输出数据集」,还支持在线使用,下拉文章获取链接~
8 月 19 日-8 月 23 日,hyper.ai 官网更新速览:
*优质公共数据集:10 个
* 优质教程精选:2 个
* 社区文章精选:2 篇
* 热门百科词条:5 条
* 9 月截稿顶会:7 个
访问官网:hyper.ai公共数据集精选1.LongWriter-6k 长上下文输出数据集
该数据集包含 6k 篇 SFT 数据,输出长度为 2k-32k 字(包括英文和中文),可支持训练 LLM,将其最大输出窗口大
原文链接:突破万字长文输出瓶颈!清华大学开源 LongWriter-6k 数据集;7 个 CCF A 类顶会即将截稿
联系作者
文章来源:HyperAI超神经
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...