原标题:AI模拟5亿年生物进化,ESM3开启「蛋白质创世纪」!论文登上Science
文章来源:新智元
内容字数:6227字
AI模拟5亿年生物进化,生成全新蛋白质:Science期刊重磅研究
Science期刊近期发表了一项重磅研究,人工智能初创公司Evolutionary Scale研发了一个名为ESM3的多模态生成式模型,成功模拟了超过5亿年的生物进化过程,并生成了与自然界已知蛋白序列不同的全新蛋白质,为蛋白质设计和药物开发开辟了新路径。
1. ESM3模型:解码生物语言,生成新型蛋白质
ESM3模型利用深度学习技术,学习了超过31.5亿条蛋白质序列、2.36亿个蛋白质结构以及5.39亿个带有功能注释的蛋白质数据。该模型采用“生成掩码语言模型”方法,能够处理蛋白质的序列、三维结构和功能信息,并生成高质量的蛋白质序列和结构。其生成结果与真实结构的平均差异仅为0.5Å。不同规模的ESM3模型(14亿、70亿和980亿参数)在生成能力和表示学习上均展现出显著提升,尤其是在生成蛋白质结构方面,980亿参数的模型表现最佳。
2. 突破自然进化瓶颈,生成新型绿色荧光蛋白
研究人员利用ESM3模型设计了一个新的绿色荧光蛋白(esmGFP),其序列与已知荧光蛋白差异巨大,序列相似性仅为53%。如果通过天然荧光蛋白的生物进化获得该蛋白,需要超过5亿年的时间。esmGFP虽然发光特性有所延迟,但最终的荧光亮度与已知绿色荧光蛋白相似,且具有稳定的荧光特性,证明了ESM3模型在生成具有特定功能全新蛋白质方面的巨大潜力。
3. ESM3模型的多模态生成和控制能力
ESM3模型的显著特点在于其多模态生成和控制能力。研究人员可以通过提示特定的蛋白质结构、功能或关键氨基酸,生成满足特定条件的新型蛋白质。例如,模型可以生成具有特定功能位点的蛋白质,同时保持整体结构的完整性。这种提示响应能力和可控特性,使得ESM3在蛋白质设计领域具有高度实用价值。
4. ESM3模型的未来应用前景
ESM3模型的应用前景广泛,它能够大大加速蛋白质设计的速度,并生成在自然界中无法轻易获得的新蛋白质。这对于基础研究和应用研究,例如蛋白质工程、合成生物学和药物开发等领域都是巨大的突破。在药物设计领域,ESM3可以帮助设计出符合特定靶点的蛋白质,减少实验验证的时间和成本;在合成生物学领域,它可以帮助开发新的合成途径,生成具备新功能的酶或代谢途径。随着模型规模和数据量的进一步增加,ESM3有潜力生成更加复杂和创新的蛋白质,为蛋白质工程开辟全新的可能性。目前,ESM3已通过API推出公开测试版,方便科学家使用。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。