1亿参数的细胞大模型来了！登Nature子刊，清华大学团队发布scFoundation：对2万基因同时建模

AIGC动态2年前 (2024)发布 HyperAI超神经

AIGC动态欢迎阅读

原标题：1亿参数的细胞大模型来了！登Nature子刊，清华大学团队发布scFoundation：对2万基因同时建模
关键字：模型,基因,细胞,数据,单细胞
文章来源：HyperAI超神经
内容字数：0字

内容摘要：

作者：梅菜
编辑：李宝珠
清华大学自动化系生命基础模型实验室和电子系/AIR 合作开展研究，构建了拥有 1 亿参数的 scFoundation 细胞大模型。近年来，大规模预训练模型正在引领新一轮人工智能浪潮。「大模型」通过从大规模、多来源的数据中提取深层次规律，进而能够作为「基础模型」服务不同领域的多样化任务。例如，大语言模型通过学量文本数据，掌握了理解和识别语言的能力，革新了自然语言处理领域的范式。
同理，在生命科学领域，生物体也有其「底层语言」——细胞是人体的基本结构和功能单位，如果将 DAN、RNA、蛋白质和基因表达值比作「词语」，其组合在一起就连成了「细胞」这个句子。所以，如果能够基于细胞「语言」开发人工智能细胞大模型，将有望为生命科学和医学提供全新的研究范式和性的研究工具。
然而，当前训练大规模单细胞数据主要存在以下三点挑战：
* 基因表达预训练数据需要涵盖不同状态和类型的细胞景观，目前大多数单细胞 RNA 测序 (scRNA-seq) 数据组织松散，全面完整的数据库仍然缺失；
* 在训练过程中，传统的 Transformer 难以处理近 2 万个蛋白质编码基因构成的

原文链接：1亿参数的细胞大模型来了！登Nature子刊，清华大学团队发布scFoundation：对2万基因同时建模