清华系细胞大模型登Nature子刊！能对人类2万基因同时建模，代码已开源

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：清华系细胞大模型登Nature子刊！能对人类2万基因同时建模，代码已开源
关键字：模型,细胞,基因,单细胞,任务
文章来源：量子位
内容字数：0字

内容摘要：

白交发自凹非寺量子位 | 公众号 QbitAI生命科学领域的基础大模型来了！
来自清华、百图生科的团队提出的单细胞基础大模型scFoundation，登上Nature Methods。
该模型基于5000万人类单细胞测序的数据进行训练，拥有1亿参数，能够同时处理约20000个基因。
团队在模型架构上进行了创新，相同参数量下计算时间是传统Transformer架构的3%左右。相关研究成果也被NeurIPS2024接收。
清华大学自动化系博士研究生郝敏升为该论文的第一作者。清华大学张学工教授，马剑竹教授，百图生科宋乐教授为通讯作者。
作为基础模型，它在细胞测序深度增强、细胞药物响应预测和细胞扰动预测等下游任务中表现出卓越的性能提升，并为基因网络推断和转录因子识别提供了新的研究思路。
细胞基础大模型登Nature子刊通过在大规模语料库上的训练，大模型才具备了基本的语言理解和识别能力。
在生命科学领域，细胞可以被视为拥有自身“语言”的基本结构和功能单元，由DNA序列、蛋白质和基因表达值等构成无数“词语”的“句子”。
那么随之而来的问题是：
能否基于大量细胞的“句子”来开发细胞的基础模型？

原文链接：清华系细胞大模型登Nature子刊！能对人类2万基因同时建模，代码已开源