AIGC动态欢迎阅读
原标题:Transformer大杀器进入蛋白质组学,一文梳理LLM如何助力生命科学领域大变革
关键字:蛋白质,序列,模型,结构,语言
文章来源:新智元
内容字数:8713字
内容摘要:
新智元报道编辑:庸庸 乔杨
【新智元导读】科学家们把Transformer模型应用到蛋白质序列数据中,试图在蛋白质组学领域复制LLM的成功。本篇文章能够带你了解蛋白质语言模型(pLM)的起源、发展,以及那些尚待解决的问题。「大语言模型」不仅可以用于人类语言,也可以用于蛋白质的「语言」,而且两者之间有很多相似之处。
过去几年,Transformer架构带来了大模型在文本和图像方面的惊人进展,当应用于生命科学领域时,也取得了影响深远的的成果。
大语言模型是如何应用于蛋白质组学的?科学家们又有哪些发现?
蛋白质是一种「语言」自然语言由单词、短语、句子等不同层次的模块组成,蛋白质的「语言」也是类似的情况。
蛋白质由基序(motif)和结构域(domain)组成,类似于蛋白质世界的「单词」和「短语」。
基序和结构域的各种组合与重复构建了更加复杂的结构,从而决定蛋白质的生物功能,类似于人类语言中句子传达的含义。
除了结构层次的相似性,蛋白质和人类语言还有另一个关键的相似点——「信息完整性」。
这意味着从信息论的角度来看,蛋白质的信息(例如其结构)完全包含在其序列中。
虽然由于环境和与其他分子的相
原文链接:Transformer大杀器进入蛋白质组学,一文梳理LLM如何助力生命科学领域大变革
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...