分类性能提高 10%，港中大团队利用大型蛋白质语言模型发现未知的信号肽

AIGC动态2年前 (2023)发布人工智能学家

AIGC动态欢迎阅读

原标题：分类性能提高 10%，港中大团队利用大型蛋白质语言模型发现未知的信号肽

关键字：序列,蛋白质,模型,宏基,方法

文章来源：人工智能学家

内容字数：4569字

内容摘要：将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑 | 萝卜皮信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的预测 SP 的计算工具忽视了极端的数据不平衡问题，而依赖于蛋白质的额外组信息。香港中文大学的研究人员开发了无偏生物体不可知信号肽网络（Unbiased Organism-agnostic Signal Peptide Network，USPNet），一种 SP 分类和切割位点预测深度学习方法。大量的实验结果表明，USPNet 的分类性能比之前的方法大幅提高了 10%。USPNet 的 SP 发现流程旨在从宏基因组数据中探索从未见过的 SP。它揭示了 347 个 SP 候选物，这些候选物与训练数据集中最接近的 SP 之间的序列同一性很低，最低仅为 13%。此外，训练集中候选物和 SP 之间的模板建模分数大多在 0.…

原文链接：点此阅读原文：分类性能提高 10%，港中大团队利用大型蛋白质语言模型发现未知的信号肽