ProtGPS

AI工具2个月前更新 AI工具集
294 0 0

ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型

ProtGPS是什么

ProtGPS(蛋白质定位预测模型)是由麻省理工学院(MIT)与怀特黑德生物医学研究所共同研发的一款基于深度学习的蛋白质语言模型,旨在预测蛋白质在细胞中的亚细胞定位。该模型通过分析蛋白质的氨基酸序列,利用进化尺度的蛋白质变换器(Transformer)架构,从中学习复杂的模式和相互关系。ProtGPS能够评估蛋白质在12种不同亚细胞区域(如核仁、核斑点等)的分布概率,并有效指导新型蛋白质序列的特异性组装。此外,ProtGPS还可以识别引起蛋白质亚细胞定位改变的致病突变,为理解细胞功能及疾病机制提供了新的视角和工具。

ProtGPS

ProtGPS的主要功能

  • 预测蛋白质的细胞内分布:能够预测蛋白质在12种不同亚细胞区域(如核仁、核斑点、应激颗粒等)的定位概率。
  • 设计特定亚细胞定位的蛋白质:生成新的蛋白质序列,使其能特异性地组装到目标亚细胞区域(如核仁或核斑点)。
  • 识别致病突变影响:分析突变对蛋白质亚细胞定位的影响,预测是否会导致蛋白质分布异常。

ProtGPS的技术原理

  • 基于Transformer的序列学习:依托于ESM2(进化尺度模型2)架构,一种基于Transformer的蛋白质语言模型,能够理解输入序列中所有氨基酸间的关系,捕捉蛋白质序列中的复杂模式和相互作用。
  • 神经网络分类器的联合训练
    • 将ESM2与神经网络分类器共同训练,分类器的任务是根据ESM2提取的特征,预测蛋白质在不同亚细胞区域的定位概率。
    • 训练数据集包含5480个人类蛋白质序列,这些序列被标注为属于12种不同的亚细胞区域,从中学习到不同行区域的蛋白质序列特征。
  • 生成蛋白质序列的算法:利用马尔可夫链蒙特卡洛(MCMC)算法设计具有特定亚细胞定位的蛋白质。在生成蛋白质序列时,考虑其化学空间和内在无序性,确保生成的序列符合自然蛋白质的分布,并能特异性地定位到目标亚细胞区域。
  • 致病突变分析:评估致病突变对蛋白质亚细胞定位的影响,通过比较野生型与突变型蛋白质的定位预测结果,识别导致蛋白质分布改变的突变。采用信息论中的Shannon熵和Wasserstein距离量化突变对蛋白质定位预测不确定性的影响。

ProtGPS的项目地址

ProtGPS的应用场景

  • 疾病机制研究:识别致病突变对蛋白质亚细胞定位的影响,有助于深入理解疾病的发病机制。
  • 蛋白质工程与药物设计:设计具有特定亚细胞定位的蛋白质,以开发新型蛋白质药物或生物传感器。
  • 细胞生物学研究:预测蛋白质在不同亚细胞区域的定位,促进细胞内蛋白质功能及相互作用的研究。
  • 基因治疗与基因编辑:设计特异性靶向亚细胞区域的基因编辑工具,提高基因编辑的效率和精准性。
  • 蛋白质功能注释与数据库构建:为蛋白质功能研究提供线索,助力构建更全面的蛋白质功能数据库。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...