AIGC动态欢迎阅读
原标题:AlphaFold 3不开源,统一生物语言大模型阿里云先开了!
关键字:序列,核酸,蛋白质,数据,模型
文章来源:量子位
内容字数:0字
内容摘要:
西风 发自 凹非寺量子位 | 公众号 QbitAI把169861个生物物种数据装进大模型,大模型竟get到了生物中心法则的奥秘——
不仅能识别DNA、RNA与相应蛋白质之间的内在联系,在基因分类、蛋白质相互作用预测、热稳定性预测等7种不同类型任务中也能比肩SOTA模型。
模型名为LucaOne,由阿里云飞天实验室生物智能计算团队打造。
相比AlphaFold 3因未开源遭到650多名学者联名批评,LucaOne训练推理代码及相关数据目前均已开源。
LucaOne是目前首个全生物系统的核酸语言+蛋白语言的融合基座模型。换句话说,LucaOne由核酸(DNA、RNA)和蛋白质序列联合训练而来。
通过一系列实验,研究人员发现它能广泛适用各种下游任务。
在含13个物种、关系对总数量为24000的核酸序列和其对应蛋白的正负样本数据集中,LucaOne提供表征的模型达到0.85的预测准确率。
远高于目前业内最好的预训练模型组合ESM-3B+DNAbert2(0.73)及其他建模方式,也显著高于LucaOne的单核酸训练版本+单蛋白训练版本。
其他任务如针对流感H3N2病毒疫苗有效性(免疫逃逸风险)
原文链接:AlphaFold 3不开源,统一生物语言大模型阿里云先开了!
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...