4000万蛋白结构训练，西湖大学开发基于结构词表的蛋白质通用大模型，已开源

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：4000万蛋白结构训练，西湖大学开发基于结构词表的蛋白质通用大模型，已开源
关键字：结构,蛋白质,模型,词表,序列
文章来源：机器之心
内容字数：5725字

内容摘要：

将ScienceAI设为星标
第一时间掌握
新鲜的AI for Science资讯编辑 |ScienceAI
蛋白质结构相比于序列往往被认为更加具有信息量，因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破，大量的预测结构被发布出来供人研究使用。如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。
西湖大学的研究人员利用Foldseek来处理蛋白质结构，将其编码成一维的离散token，并与传统的氨基酸进行结合，形成了结构感知词表（Structure-aware Vocabulary），以此将结构信息嵌入到模型输入中，增强模型的表征能力。
在预训练上，论文使用了目前最多的蛋白质结构（identity过滤后4000万），在64张A100上训练了3个月，最终开源了具备650M参数量的模型SaProt（同时包括了35M的版本）。实验结果表明SaProt各种蛋白质任务上都要好于之前的序列和结构模型。
研究《SaProt: Protein Language Modeling with Structure-aware Vocabulary》的预印版本，于2024

原文链接：4000万蛋白结构训练，西湖大学开发基于结构词表的蛋白质通用大模型，已开源