原标题:给AI一个词就能测出科研创造力?人大高瓴团队最新研究:模型智商高未必最有创意
文章来源:人工智能学家
内容字数:9991字
AI 科研创造力评估:高智商并非创造力的保证
近年来,人工智能在数学推理、代码生成等领域取得了显著进展,甚至超越了人类的表现。然而,一个关键问题是:这些模型是否真正具备科研创新能力?中国人民大学高瓴人工智能学院孙浩教授团队的研究为这个问题提供了新的答案。
LiveIdeaBench:评估AI科研创造力的新基准
该团队开发了一个名为LiveIdeaBench的基准,通过改变AI提示词中的科学关键词来评估其科研创造力。该基准基于Guilford创造力理论,从原创性、可行性、流畅性、灵活性四个维度对模型进行全面评估,涵盖了18个学科领域的1180个科研关键词。LiveIdeaBench采用动态评审机制,由多个顶尖模型组成的评审团每月更新一次,保证评测的公平性和时效性。
令人意外的发现:高智商≠高创造力
研究团队对包括OpenAI的o1、Google的Gemini、Anthropic的Claude在内的20个主流大模型进行了测试。结果显示,模型的通用智能水平与创新能力并不总是成正比。例如,Gemini Pro 1.5在原创性和可行性方面表现均衡;QwQ-32B-Preview模型虽然在通用任务评测中表现一般,但在创造力测试中却与顶尖模型不相上下;Claude 3.5 Sonnet在原创性方面领先,但可行性较低。这表明,AI的“聪明”和“创意”是相对的维度,与人类类似,高智商并不意味着高创造力。
“点子王”模型:推理与创造力的结合
基于LiveIdeaBench的测试结果,研究团队开发了一个名为“点子王”(IdeaWhiz)的模型,该模型继承了QwQ-32B-Preview的推理特性,并在化学、生物、气候和医学等领域展现出强大的创意能力。例如,在针对“癌症”的科研创意生成中,它能够提出将机器学习与多组学数据结合以开发个性化癌症疫苗的创新方案,展现了其将步步推理与创造性思维相结合的能力。该模型已在Hugging Face开源。
LiveIdeaBench的意义与未来展望
LiveIdeaBench不仅是一个评测基准,更是一个探索AI科研创造力的窗口。这项研究推动了AI在科学创新方面的进步,为人工智能辅助科学发现开辟了新的可能,也为科研工作者提供了一个实用的头脑风暴助手。未来,该研究有望进一步完善AI创造力评估方法,促进AI在科学研究中的应用。
总而言之,这项研究强调了AI科研创造力的重要性,并指出高智商并非创造力的保证。LiveIdeaBench的出现为评估和提升AI的科研创造力提供了新的工具,也为AI辅助科学发现开辟了新的可能性。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构