AlphaFold 3不开源,统一生物语言大模型阿里云先开了!

AIGC动态4个月前发布 量子位
9 0 0

AlphaFold 3不开源,统一生物语言大模型阿里云先开了!

AIGC动态欢迎阅读

原标题:AlphaFold 3不开源,统一生物语言大模型阿里云先开了!
关键字:序列,核酸,蛋白质,数据,模型
文章来源:量子位
内容字数:0字

内容摘要:


西风 发自 凹非寺量子位 | 公众号 QbitAI把169861个生物物种数据装进大模型,大模型竟get到了生物中心法则的奥秘——
不仅能识别DNA、RNA与相应蛋白质之间的内在联系,在基因分类、蛋白质相互作用预测、热稳定性预测等7种不同类型任务中也能比肩SOTA模型。
模型名为LucaOne,由阿里云飞天实验室生物智能计算团队打造。
相比AlphaFold 3因未开源遭到650多名学者联名批评,LucaOne训练推理代码及相关数据目前均已开源。
LucaOne是目前首个全生物系统的核酸语言+蛋白语言的融合基座模型。换句话说,LucaOne由核酸(DNA、RNA)和蛋白质序列联合训练而来。
通过一系列实验,研究人员发现它能广泛适用各种下游任务。
在含13个物种、关系对总数量为24000的核酸序列和其对应蛋白的正负样本数据集中,LucaOne提供表征的模型达到0.85的预测准确率。
远高于目前业内最好的预训练模型组合ESM-3B+DNAbert2(0.73)及其他建模方式,也显著高于LucaOne的单核酸训练版本+单蛋白训练版本。
其他任务如针对流感H3N2病毒疫苗有效性(免疫逃逸风险)


原文链接:AlphaFold 3不开源,统一生物语言大模型阿里云先开了!

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...