今日arXiv最热NLP大模型论文：IBM研究院提出Genie方法，自动生成高质量数据集

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热NLP大模型论文：IBM研究院提出Genie方法，自动生成高质量数据集
关键字：数据,解读,模型,问题,报告
文章来源：夕小瑶科技说
内容字数：9235字

内容摘要：

夕小瑶科技说原创编辑 | 谢年年数据是大模型的基石。但传统的数据集创建方法通常依赖人工，耗时耗力成本高，另外数据集的来源复杂，噪声大，比如新闻媒体稿或者社交媒体，数据质量难以保证。为此，IBM研究院了一种名为Genie的新方法，可以自动生成高质量的数据。
作者生成了三个大规模的合成数据，包含长篇问答（LFQA）、摘要和信息提取（IE）。通过人类评估，合成数据是自然且高质量的，可与人类标注数据相媲美的。此外，作者还将基于合成数据
训练的模型与基于人工撰写的数据训练的模型进行比较，其中，LFQA使用ELI5和ASQA数据，摘要使用CNN-DailyMail数据。结果显示合成数据训练模甚至超过基于人工生成数据训练的模型。
声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核、配图后发布。
公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接！
论文标题： Genie: Achieving Human Parity In Content-Grounded Datasets Generation
论文链接为： https://arxiv.or

原文链接：今日arXiv最热NLP大模型论文：IBM研究院提出Genie方法，自动生成高质量数据集