AIGC动态欢迎阅读
原标题:单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
关键字:结构,蛋白质,模型,词表,序列
文章来源:新智元
内容字数:8339字
内容摘要:
新智元报道编辑:LRS
【新智元导读】Saprot在proteingym蛋白质突变预测任务公开基准榜(由牛津大学计算机与哈佛医学院设立)排名第一。相比,其他排名靠前的算法都是混合模型,专门针对突变任务设计,而Saprot不仅是单模型,而且是通用模型。蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。
而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用,如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。
西湖大学的研究人员利用Foldseek来处理蛋白质结构,将其编码成一维的离散token,并与传统的氨基酸进行结合,形成了结构感知词表(Structure-aware Vocabulary),以此将结构信息嵌入到模型输入中,增强模型的表征能力。论文地址:https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4
Github地址:https://github.com/westlake-repl/SaProt
在预训练上,本文使用了目前最多的蛋白质结构(大约
原文链接:单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。