“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂

AIGC动态7个月前发布 量子位
8 0 0

“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂

AIGC动态欢迎阅读

原标题:“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂
关键字:模型,腾讯,星星,测试,研究人员
文章来源:量子位
内容字数:4579字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型长文本能力测试,又有新方法了!
腾讯MLPD实验室,用全新开源的“数星星”方法替代了传统的“大海捞针”测试。
相比之下,新方法更注重对模型处理长依赖关系能力的考察,对模型的评估更加全面精准。
利用这种方法,研究人员对GPT-4和国内知名的Kimi Chat进行了“数星星”测试。
结果,在不同的实验条件下,两款模型各有胜负,但都体现出了很强的长文本能力。
△横轴系以2为底的对数坐标那么,“数星星”究竟是怎样的一种测试呢?
比“大海捞针”更加精准首先,研究人员选择了一段长文本做为上下文,测试过程中长度逐渐递增,最大为128k。
然后,根据不同的测试难度需求,整段文本会被划分成N段,并向其中插入M个包含“星星”的句子。
实验过程中,研究人员选择了《红楼梦》作为上下文文本,向其中加入了“小企鹅数了x颗星星”这样的句子,每个句子中的x都各不相同。
然后,模型会被要求找到所有这样的句子,并以JSON格式输出其中所有的数字,且只输出数字。
得到模型的输出之后,研究人员会将这些数字和Ground Truth进行对比,最终计算出模型输出的正确率。


原文链接:“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...