入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言

入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言

AIGC动态欢迎阅读

原标题:入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言
关键字:蛋白质,解读,模型,语言,序列
文章来源:HyperAI超神经
内容字数:0字

内容摘要:


作者:梅菜
编辑:十九,李宝珠
浙江大学研究团队提出InstructProtein,利用知识指令对齐蛋白质语言与人类语言,展示了将生物序列整合到大型语言模型的能力。作为细胞生存的基础,蛋白质存在于包括人体在内的所有生物体中,是构成组织器官的支架和主要物质,在生命必不可少的化学反应中发挥着核心作用。
面对蛋白质结构的复杂多变,传统实验方法在解析蛋白质结构时既耗时又费力,蛋白质大语言模型 (PLMs) 应运而生——这些专业模型以氨基酸序列作为输入,能预测蛋白质功能,甚至设计全新的蛋白质。然而,PLMs 虽然在理解氨基酸序列方面表现出色,但无法理解人类语言。
同样地,当要求 ChatGPT 和 Claude-2 这类擅长处理自然语言的大语言模型 (LLMs),去描述蛋白质序列的功能或生成具有特定性质的蛋白质时,它们也力不从心。究其原因,目前的蛋白质-文本对数据集存在两大缺陷:一是缺少明确的指令信号;二是数据注释不平衡。总之,当前 LLMs 的研究中存在一个尚未解决的空白,即无法在人类语言和蛋白质语言之间快速转换。
为了解决这类问题,浙江大学陈华钧、张强团队提出InstructProtein


原文链接:入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言

联系作者

文章来源:HyperAI超神经
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...