哈佛、哥大开源1600万组蛋白质序列，解决AlphaFold 2训练数据私有难题！

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：哈佛、哥大开源1600万组蛋白质序列，解决AlphaFold 2训练数据私有难题！

关键字：序列,蛋白质,数据,结构,数据库

文章来源：新智元

内容字数：4596字

内容摘要：新智元报道编辑：Aeneas【新智元导读】这个叫OpenProteinSet的开源数据集，提供1600万个开源蛋白质多序列对齐（MSA）和相关数据。它涵盖了所有蛋白质数据库的蛋白质和各种UniProt集群，可以实现广泛的AI模型训练。蛋白质是生命的主力军，了解它们的序列和结构，是设计新酶、开发救命药物等生物学和医学挑战的关键。然而，由于缺乏开放的训练数据，这一领域的进展被严重阻碍。但来自哈佛大学、…

原文链接：点此阅读原文：哈佛、哥大开源1600万组蛋白质序列，解决AlphaFold 2训练数据私有难题！