上交大模型审稿风险:一句话就能让论文评分飞升

AI 审稿,还是需要谨慎。

上交大揭露大模型审稿风险:一句话就能让论文评分飞升

原标题:上交大模型审稿风险:一句话就能让论文评分飞升
文章来源:机器之心
内容字数:7307字

大语言模型与学术同行评审:风险与应对

机器之心AIxiv专栏报道了上海交通大学、佐治亚理工学院等多所高校联合发表的论文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,该论文深入探讨了大语言模型(LLMs)在学术同行评审中带来的潜在风险,并提出了相应的应对措施。

1. 大语言模型渗透学术同行评审

近年来,LLMs被越来越多地用于辅助甚至替代学术论文的同行评审,旨在提高效率。然而,斯坦福大学和EPFL的研究表明,已有相当比例的论文内容或评审意见受到了LLMs的影响,这引发了对学术评审可靠性的担忧。

2. LLMs在同行评审中的风险

该论文揭示了LLMs在学术同行评审中存在的四大风险:

2.1 操控风险

作者可以通过在文章中插入肉眼难以察觉的指令性文字,操纵LLMs生成有利于自己的审稿意见,甚至操控最终的论文评分。研究表明,即使是微小的、几乎不可见的文字也能显著影响LLMs的判断。

2.2 隐性操控

LLMs倾向于复述作者主动在文章中揭示的局限性。作者可以通过故意暴露轻微缺陷,隐秘地操控审稿过程。与显式操控相比,隐性操控更难察觉和防范。

2.3 幻觉问题

LLMs可能对空白文章生成虚构的审稿意见,这凸显了“模型幻觉”问题在审稿中的潜在威胁。即使文章内容不完整,LLMs也可能给出与完整论文相似的评分,严重扭曲评审的实际质量。

2.4 偏见问题

LLMs在审稿过程中表现出明显的偏好,例如对文章长度、著名作者和机构的偏爱,这极大影响了评审的公正性。

3. 应对措施与倡议

为了应对LLMs带来的风险,研究者们提出了以下倡议:

  1. 暂停LLMs在同行评审中的替代性使用。
  2. 引入检测工具和问责机制,识别并应对操控行为。
  3. 将LLMs作为辅助工具使用,提供额外反馈以提升审稿质量。
  4. 增强LLMs审稿系统的稳健性和安全性。

研究团队呼吁学界谨慎推进LLMs在同行评审中的应用,在确保风险可控并有有效的防范机制后,才能负责任地将其整合进学术同行评审中,维护学术出版的公正性和严谨性。同时,他们也发起了问卷调查,邀请相关人士参与,共同探讨这一新兴技术对学术审稿流程的影响。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...