Evo 2 – Acr研究所联合英伟达、斯坦福等推出的生物学AI模型
Evo 2 是由美国弧形研究所、英伟达和斯坦福大学等机构联合开发的一款前沿 DNA 语言模型,旨在为基因组建模和设计提供强大支持,覆盖生命科学的各个领域。该模型基于 StripedHyena 2 架构,具备处理长达 100 万个碱基对的单核苷酸分辨率能力,能有效推动基因组学研究与应用。
Evo 2是什么
Evo 2 是一款由美国弧形研究所、英伟达及斯坦福大学等多方合作推出的 DNA 语言模型,专注于基因组建模与设计,覆盖生命科学的多个领域。该模型采用 StripedHyena 2 架构开发,具备处理长达 100 万个碱基对的单核苷酸分辨率能力。Evo 2 在 OpenGenome2 数据集上进行自回归预训练,该数据集包含来自不同生命领域的 8.8 万亿个标记,能够支持长序列建模、DNA序列生成以及嵌入向量提取等多种功能,提供多个模型检查点以满足不同用户需求。Evo 2 是推动生物医学和合成生物学等领域研究与应用的重要工具。
Evo 2的主要功能
- 长序列建模:能够处理长达 100 万个碱基对的 DNA 序列,支持高精度的基因组建模。
- DNA 序列生成:根据输入提示生成全新的 DNA 序列,广泛应用于合成生物学和基因编辑领域。
- 嵌入向量提取:提取 DNA 序列的嵌入向量,以便于后续的基因功能预测和变异效应分析。
- 零样本预测:支持零样本学习,能够预测基因变异对功能的潜在影响(如 BRCA1 基因变异效应预测)。
- 序列评分:计算 DNA 序列的似然分数,以评估其稳定性和功能潜力。
Evo 2的技术原理
- 大规模数据训练:基于超过 9.3 万亿个核苷酸的数据进行训练,数据来自超过 12.8 万个基因组,涵盖细菌、古菌、真核生物等多个生命领域。
- 独特的 AI 架构:采用 StripedHyena 2 架构,能够处理长达 100 万个核苷酸的基因序列,理解基因组中相距较远部分之间的关系。
- 深度学习与生成生物学:运用深度学习技术,如同理解语言一样掌握核酸序列,通过学习进化过程中形成的生物序列模式,预测基因突变的影响并生成新的基因组。
- 强大的计算支持:Evo 2 的训练依托于英伟达的 DGX Cloud AI 平台,使用超过 2000 个 H100 GPU,展现出强大的计算能力和高效的模型训练。
Evo 2的项目地址
- 项目官网:https://arcinstitute.org/news/blog/evo2
- GitHub仓库:https://github.com/ArcInstitute/evo2
- HuggingFace模型库:https://huggingface.co/arcinstitute
- 技术论文:https://arcinstitute.org/manuscripts/Evo2
Evo 2的应用场景
- 疾病预测:识别基因突变是否与疾病相关,辅助进行疾病诊断。
- 基因治疗:设计细胞特异性的基因治疗工具,降低副作用。
- 合成生物学:设计新型基因组,推动人工生命研究的发展。
- 进化研究:识别基因序列中的模式,深入研究生物进化。
- 生物工具开发:设计生物传感器等工具,促进生物技术的进步。
常见问题
- Evo 2 的主要优势是什么? Evo 2 具备处理长序列的能力,能够在基因组建模和设计上提供高精度支持。
- 如何使用 Evo 2 进行基因治疗的设计? 用户可以利用 Evo 2 生成特定的 DNA 序列,以设计细胞特异性的治疗工具。
- Evo 2 是否支持多种生命形式的基因组? 是的,Evo 2 的训练数据涵盖了细菌、古菌和真核生物等多种生命形式。
- 如何获取 Evo 2 的技术支持? 用户可以访问项目官网或 GitHub 仓库获取相关文档和支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...