AI 突破自然进化的局限。
原标题:Science:AI模拟5亿年生物进化,创造了一种「前所未有」的蛋白质
文章来源:大数据文摘
内容字数:6152字
AI赋能蛋白质设计:ESM3模型引领生物分子工程新时代
蛋白质是生命的基础,其序列和结构的演变历经数十亿年。近年来,深度学习和语言模型的兴起为理解和设计蛋白质带来了性的变革。Science杂志最新发表的研究成果展示了ESM3,一个多模态生成式模型,它能够生成具有全新功能的蛋白质,甚至模拟超过5亿年的进化过程。
1. ESM3模型:解码生物语言
ESM3模型由人工智能初创公司Evolutionary Scale研发,它利用超过31.5亿条蛋白质序列、2.36亿个蛋白质结构以及5.39亿个带有功能注释的蛋白质数据进行训练。该模型拥有三种不同规模,参数量分别为14亿、70亿和980亿。实验结果表明,参数规模越大,ESM3在生成能力和表示学习上的性能越显著,尤其是在生成蛋白质结构方面,980亿参数的模型表现超越现有模型。
不同于传统模型,ESM3是一个多模态生成模型,能够同时处理蛋白质的序列、三维结构和功能信息。它采用“生成掩码语言模型”方法,通过对输入数据进行随机掩码并推理生成缺失部分,从而生成高质量的蛋白质序列和结构。其生成结果与真实结构的平均差异仅为0.5Å。
2. 突破自然进化瓶颈:生成新型绿色荧光蛋白
为了展示ESM3的潜力,研究人员选择绿色荧光蛋白(GFP)作为挑战目标。GFP在生物学研究中至关重要,但其自然突变通常局限于现有序列附近。ESM3则突破了这一瓶颈。研究人员通过提供GFP的关键氨基酸序列和三维结构信息作为提示,引导ESM3生成一个与已知GFP序列差异巨大,但仍保持荧光特性的全新蛋白质——esmGFP。
esmGFP与现有荧光蛋白的序列相似性仅为53%-58%,这意味着如果要通过自然进化获得esmGFP,需要超过5亿年的时间。实验验证表明,esmGFP尽管成熟时间较长,但最终的荧光亮度与已知GFP相似,具有稳定的荧光特性。
3. ESM3的未来应用与潜力
ESM3的多模态特性使其能够根据特定的蛋白质结构、功能或关键氨基酸等提示生成满足要求的新型蛋白质。这种提示响应能力和可控性使其在蛋白质设计领域具有高度实用价值。ESM3能够加速蛋白质设计速度,生成自然界中难以获得的新型蛋白质,这对于基础研究和应用研究都具有重要意义。
ESM3的应用前景广泛,包括药物设计(设计具有特定靶点的蛋白质)、合成生物学(开发新的合成途径)等。随着模型规模和数据量的进一步增加,ESM3有潜力生成更加复杂和创新的蛋白质,为蛋白质工程开辟全新的可能性。目前,ESM3已通过API推出公开测试版,方便科学家使用。
联系作者
文章来源:大数据文摘
作者微信:
作者简介:普及数据思维,传播数据文化