突破性稳定生存分析:应对多中心与大规模异质数据的全新方法

清华大学与国家蛋白质科学中心(北京)联合在全球顶级期刊“Nature Machine Intelligence”发表的研究成果。

突破性稳定生存分析:应对多中心与大规模异质数据的全新方法

原标题:Nature 子刊发表稳定学习新进展:面向多中心、大队列异质数据的「稳定」生存分析方法
文章来源:AI科技评论
内容字数:5018字

崔鹏团队的稳定生存分析方法研究

近期,清华大学崔鹏团队与国家蛋白质科学中心(北京)常乘团队联合在《Nature Machine Intelligence》上发表了题为“Stable Cox Regression for Survival Analysis under Distribution Shifts”的研究论文。这项研究基于稳定学习理论,提出了Stable Cox模型,旨在发现稳定的预后标志物,以应对生存分析中的多中心异质性数据问题。

1. 生存分析中的挑战

生存分析是评估协变量对发生时间影响的重要统计方法,广泛应用于医学、公共卫生等领域。Cox回归模型作为生存分析中的主流工具,能够同时分析多种因素对生存期的影响。然而,现有方法通常假设训练和测试数据的分布相似,这在实际应用中常常不成立,导致模型泛化性差,特别是在个性化医疗等高风险领域。

2. Stable Cox模型的创新

为了解决上述问题,研究团队提出了Stable Cox模型,该模型的核心在于消除不稳定协变量与生存结果之间的虚假相关性。该方法包括两个阶段:首先,通过样本加权使协变量;其次,在加权的Cox回归阶段,利用样本权重重加权损失函数,从而有效分离每个变量对生存输出的影响。研究表明,即使在模型错估的情况下,Stable Cox模型依然能够识别出稳定的变量进行预测。

3. 实验结果与应用

研究团队在肝癌、乳腺癌、黑色素瘤等多种癌症的组学数据及临床生存数据上进行了广泛实验,结果显示Stable Cox模型在多个测试群体中展现出强大的泛化能力,平均提升6.5%-13.9%。此外,该模型所学得的权重系数可用于发现潜在的组合标志物,为生存风险显著不同的亚型提供分组依据,具有重要的临床应用价值。

4. 结论与展望

本研究表明,稳定生存分析方法能够提高标志物识别的泛化能力,克服传统技术在多样化样本中的局限性。这为疾病的早期准确诊断提供了新技术支持,也呼吁研究界关注机器学习方法在医疗领域的稳定性与可靠性。未来,研究团队将继续探索如何在异质性数据中精确识别生物标志物,以满足社会对健康保障的需求。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止