“大海捞针”out！“数星星”成测长文本能力更精准方法，来自鹅厂

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：“大海捞针”out！“数星星”成测长文本能力更精准方法，来自鹅厂
关键字：模型,腾讯,星星,测试,研究人员
文章来源：量子位
内容字数：4579字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI大模型长文本能力测试，又有新方法了！
腾讯MLPD实验室，用全新开源的“数星星”方法替代了传统的“大海捞针”测试。
相比之下，新方法更注重对模型处理长依赖关系能力的考察，对模型的评估更加全面精准。
利用这种方法，研究人员对GPT-4和国内知名的Kimi Chat进行了“数星星”测试。
结果，在不同的实验条件下，两款模型各有胜负，但都体现出了很强的长文本能力。
△横轴系以2为底的对数坐标那么，“数星星”究竟是怎样的一种测试呢？
比“大海捞针”更加精准首先，研究人员选择了一段长文本做为上下文，测试过程中长度逐渐递增，最大为128k。
然后，根据不同的测试难度需求，整段文本会被划分成N段，并向其中插入M个包含“星星”的句子。
实验过程中，研究人员选择了《红楼梦》作为上下文文本，向其中加入了“小企鹅数了x颗星星”这样的句子，每个句子中的x都各不相同。
然后，模型会被要求找到所有这样的句子，并以JSON格式输出其中所有的数字，且只输出数字。
得到模型的输出之后，研究人员会将这些数字和Ground Truth进行对比，最终计算出模型输出的正确率。

原文链接：“大海捞针”out！“数星星”成测长文本能力更精准方法，来自鹅厂