AIGC动态欢迎阅读
原标题:今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集
关键字:数据,解读,模型,问题,报告
文章来源:夕小瑶科技说
内容字数:9235字
内容摘要:
夕小瑶科技说 原创编辑 | 谢年年数据是大模型的基石。但传统的数据集创建方法通常依赖人工,耗时耗力成本高,另外数据集的来源复杂,噪声大,比如新闻媒体稿或者社交媒体,数据质量难以保证。为此,IBM研究院了一种名为Genie的新方法,可以自动生成高质量的数据。
作者生成了三个大规模的合成数据,包含长篇问答(LFQA)、摘要和信息提取(IE)。通过人类评估,合成数据是自然且高质量的,可与人类标注数据相媲美的。此外,作者还将基于合成数据
训练的模型与基于人工撰写的数据训练的模型进行比较,其中,LFQA使用ELI5和ASQA数据,摘要使用CNN-DailyMail数据。结果显示合成数据训练模甚至超过基于人工生成数据训练的模型。
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核、配图后发布。
公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接!
论文标题: Genie: Achieving Human Parity In Content-Grounded Datasets Generation
论文链接为: https://arxiv.or
原文链接:今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...