模拟5亿年的进化信息,首个同时推理蛋白质序列、结构和功能的生物学大模型

模拟5亿年的进化信息,首个同时推理蛋白质序列、结构和功能的生物学大模型

AIGC动态欢迎阅读

原标题:模拟5亿年的进化信息,首个同时推理蛋白质序列结构功能的生物学大模型
关键字:蛋白质,序列,报告,结构,功能
文章来源:人工智能学家
内容字数:0字

内容摘要:


来源:ScienceAI
编辑:萝卜皮
在三十亿年的自然进化历程中,现存蛋白质的形态得以形成,经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验,通过随机突变和选择机制,依据蛋白质的序列、结构与功能进行筛选。
在这里,EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器,用于生成不同于已知蛋白质序列的功能性蛋白质。
研究人员提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biological alignment)高度敏感。
研究人员使用 ESM3 生成荧光蛋白。其中一种功能上明亮的荧光蛋白,与已知的荧光蛋白的序列差异很大(58% 同源性)。
该研究的预印版文章「Simulating 500 million years of evolution with a language model」近期将发布在 bioRxiv 预印平台。
自然进化是如何在超过三十亿年的时间里,雕琢出当前自然界中蛋白质的多样性的呢?
这一过程涉及无数随机突变


原文链接:模拟5亿年的进化信息,首个同时推理蛋白质序列、结构和功能的生物学大模型

联系作者

文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...