LeCun转发,UC伯克利等提出多模态蛋白质生成方法PLAID,同时生成序列和全原子蛋白结构
该方法可用于任何蛋白质预测模型
原标题:LeCun转发,UC伯克利等提出多模态蛋白质生成方法PLAID,同时生成序列和全原子蛋白结构
文章来源:HyperAI超神经
内容字数:8320字
加州大学伯克利分校等机构提出新型多模态蛋白质生成方法PLAID
本文介绍了加州大学伯克利分校、微软研究院等机构提出的一种新型多模态蛋白质生成方法PLAID (Protein Latent Induced Diffusion),该方法能够从序列等丰富数据模态生成稀缺的模态,例如晶体结构,从而实现对蛋白质全原子结构的生成。这项研究成果已提交至ICLR 2025,并获得了“AI教父”杨立昆的转发。
研究背景与挑战
蛋白质的功能由其结构决定,包括原子身份、位置和生物物理性质等。全原子结构生成需要同时生成序列和结构,但现有方法通常将两者视为模态,存在诸多局限性,例如仅生成主链原子,或需在结构预测和反折叠步骤之间交替进行。
PLAID方法概述
PLAID 是一种基于扩散模型的多模态蛋白质生成方法。它利用预训练的蛋白质语言模型ESMFold的潜在空间,通过扩散过程学习序列和结构的联合嵌入,最终实现从序列信息生成全原子结构。该方法在训练过程中仅需要序列输入,并利用了预训练权重中编码的结构信息。
PLAID方法主要包含四个步骤:1. ESMFold潜在空间表示;2. 潜在扩散训练;3. 推理阶段的序列和结构生成;4. 基于扩散变换器(DiT)的模型架构,融合条件信息进行可控生成。
实验结果与分析
研究人员使用Pfam数据库进行实验,结果表明PLAID生成的蛋白质结构具有较高的质量和一致性,并且在不同蛋白质长度上保持稳定。与其他基准方法相比,PLAID在结构质量、多样性、新颖性和跨模态一致性方面均表现出色。其生成的二级结构多样性也更接近天然蛋白质的分布。
Diffusion Transformer(DiT)的应用
PLAID采用Diffusion Transformer(DiT)执行去噪任务,利用其全局自注意力机制有效建模序列和结构的复杂交互关系。DiT在图像和视频生成领域已取得显著进展,在生物医药领域应用也日益广泛,能够提高蛋白质结构预测的效率和精度。
未来展望与相关研究
PLAID的成功为蛋白质定制化设计提供了新的可能性,推动了人工智能在蛋白质研究领域的应用。文章还简要介绍了其他相关的研究进展,例如MProt-DPO和PocketGen,这些研究都为蛋白质设计和工程提供了新的工具和方法。
总而言之,PLAID方法为蛋白质结构生成提供了一种高效、准确且可控的新途径,有望推动蛋白质设计和药物研发等领域的进步。
联系作者
文章来源:HyperAI超神经
作者微信:
作者简介:解构技术先进性与普适性,报道更前沿的 AIforScience 案例