1亿参数的细胞大模型来了!登Nature子刊,清华大学团队发布scFoundation:对2万基因同时建模
AIGC动态欢迎阅读
原标题:1亿参数的细胞大模型来了!登Nature子刊,清华大学团队发布scFoundation:对2万基因同时建模
关键字:模型,基因,细胞,数据,单细胞
文章来源:HyperAI超神经
内容字数:0字
内容摘要:
作者:梅菜
编辑:李宝珠
清华大学自动化系生命基础模型实验室和电子系/AIR 合作开展研究,构建了拥有 1 亿参数的 scFoundation 细胞大模型。近年来,大规模预训练模型正在引领新一轮人工智能浪潮。「大模型」通过从大规模、多来源的数据中提取深层次规律,进而能够作为「基础模型」服务不同领域的多样化任务。例如,大语言模型通过学习大量文本数据,掌握了理解和识别语言的能力,革新了自然语言处理领域的范式。
同理,在生命科学领域,生物体也有其「底层语言」——细胞是人体的基本结构和功能单位,如果将 DAN、RNA、蛋白质和基因表达值比作「词语」,其组合在一起就连成了「细胞」这个句子。所以,如果能够基于细胞「语言」开发人工智能细胞大模型,将有望为生命科学和医学提供全新的研究范式和革命性的研究工具。
然而,当前训练大规模单细胞数据主要存在以下三点挑战:
* 基因表达预训练数据需要涵盖不同状态和类型的细胞景观,目前大多数单细胞 RNA 测序 (scRNA-seq) 数据组织松散,全面完整的数据库仍然缺失;
* 在训练过程中,传统的 Transformer 难以处理近 2 万个蛋白质编码基因构成的
原文链接:1亿参数的细胞大模型来了!登Nature子刊,清华大学团队发布scFoundation:对2万基因同时建模
联系作者
文章来源:HyperAI超神经
作者微信:HyperAI
作者简介:解构技术先进性与普适性,报道更前沿的 AIforScience 案例
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...