清华大学与国家蛋白质科学中心(北京)联合在全球顶级期刊“Nature Machine Intelligence”发表的研究成果。
原标题:Nature 子刊发表稳定学习新进展:面向多中心、大队列异质数据的「稳定」生存分析方法
文章来源:AI科技评论
内容字数:5018字
崔鹏团队在生存分析领域的突破性研究
近期,清华大学崔鹏团队与国家蛋白质科学中心(北京)常乘团队联合在全球顶级期刊《Nature Machine Intelligence》上发表了题为“Stable Cox Regression for Survival Analysis under Distribution Shifts”的研究长文。这项研究提出了一种名为Stable Cox的模型,旨在提高生存分析中预后标志物的稳定性和可靠性。
1. 背景与挑战
生存分析作为一项重要的统计研究方法,广泛应用于医学、公共卫生、金融等领域。Cox回归模型是其中最常用的方法之一,然而,现有方法常假设训练和测试数据具有相似分布,然而在多中心和多样化人群中,这一假设经常不成立。这种分布偏移对模型的泛化能力和可靠性构成了重大挑战,特别是在个性化医疗中,如何找到稳定的生物标志物成为关键问题。
2. Stable Cox模型的创新
为了解决上述问题,研究团队提出了Stable Cox模型。该模型通过消除不稳定变量与生存结果之间的虚假相关性,确保学习到的相关性能够稳定地反映协变量对生存概率的因果影响。Stable Cox模型的构建分为两个阶段:第一阶段为性驱动的样本加权,第二阶段为加权Cox回归。通过这一过程,模型能够有效区分每个变量对生存输出的影响。
3. 实证结果与意义
研究团队在肝癌、乳腺癌和黑色素瘤等多种癌症的组学数据及临床生存数据上进行了广泛实验,结果显示Stable Cox模型在多个测试群体上具有显著的泛化能力,预后标志物的识别准确性提升了6.5%-13.9%。此外,模型得出的权重系数可用于发现潜在的组合标志物,为个性化治疗提供重要依据。
4. 结论与展望
该研究强调了在异质性数据中准确识别稳定预后标志物的重要性,并呼吁研究界重视机器学习方法在医疗等关键领域应用的稳定性和可靠性。通过Stable Cox模型,未来有望在生存分析和临床应用中实现更高的预测准确性,从而推动疾病早期诊断和精准治疗的发展。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。