原标题:Evo 2作者、斯坦福计算生物学家 Brian Hie:AI可发现人类无法看到的模式
文章来源:人工智能学家
内容字数:10830字
Evo 2:有史以来最大的生物学AI模型
本文介绍了由Arc研究所、斯坦福大学和NVIDIA共同开发的Evo 2,这是迄今为止最大的生物学人工智能模型。Evo 2基于128,000个基因组进行训练,涵盖了从人类到单细胞细菌和古细菌的广泛生命体,能够从头开始编写整个染色体和小基因组,并理解现有的DNA,包括与疾病相关的复杂“非编码”基因变体。其软件代码、数据和模型参数可在线访问和免费下载。
Evo 2的突破性进展
Evo 2及其前身Evo的突破在于将大型语言模型(LLM)技术应用于DNA序列分析。研究人员将DNA序列视为类似于人类语言的序列数据,通过训练模型预测DNA碱基对的序列,从而理解DNA的结构和功能。Evo 2的成功,源于其创新的训练方法和庞大的数据集。
将LLM应用于DNA的创新思路
1. **DNA序列的语言特性:** 研究人员认为DNA序列如同人类语言一样,是由离散的“token”(碱基对)组成的序列,具有其自身的结构和模式,并非随机排列。
2. **从DNA到蛋白质的语言建模:** 基于中心法则(DNA编码RNA,RNA编码蛋白质),在DNA上训练好的模型可以自动扩展到RNA和蛋白质的语言建模。同时,Evo 2在整个基因组上进行训练,保留了基因在基因组上相邻位置的重要信息,这与仅关注蛋白质编码区域的传统方法不同。
3. **长上下文长度:** Evo 2能够处理更长的DNA序列(上下文长度),这需要克服巨大的计算挑战,研究团队利用了最新的技术进展来降低计算成本。
4. **数据集的多样性:** 训练数据包含了高度多样化的基因组序列,这使得模型能够学习到更普遍的规律。
Evo 2的测试和性能
Evo 2通过预测蛋白质编码DNA序列中突变的“进化可能性”来进行测试。实验结果表明,Evo 2预测的高可能性突变通常能够保持或改善蛋白质功能,而低可能性突变则可能破坏蛋白质功能。虽然Evo 2也会犯错,但其“幻觉”能力在生物学研究中可能成为一种优势,帮助发现新的生物学现象。
Brian Hie对Evo 2的评价
斯坦福大学计算生物学家Brian Hie指出,Evo 2发现了人类难以察觉的DNA序列模式,这体现了AI在生物学研究中的巨大潜力。Evo 2的成功,为生物学研究提供了强大的新工具,有望加速对生命奥秘的探索,并推动生物医学领域的创新。
Evo 2的开放性
Evo 2的软件代码、数据和模型参数可供公众免费使用,这将促进全球科学界对该技术的进一步研究和应用,推动生物学AI领域的快速发展。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构