开源1760亿参数通用医学语言模型!北邮/北大/三峡大学提出MedFound,推理能力接近专家医师
成果登 Nature 子刊
原标题:开源1760亿参数通用医学语言模型!北邮/北大/三峡大学提出MedFound,推理能力接近专家医师
文章来源:HyperAI超神经
内容字数:9492字
MedFound:突破性生物医学大语言模型
本文介绍了由北京邮电大学、北京大学第三医院和三峡大学组成的医工交叉团队研发的MedFound,一个拥有1760亿参数的生物医学大语言模型,其成果已发表在《自然-医学》杂志上。MedFound旨在解决医学领域误诊率高的问题,该问题不仅给患者带来精神、财产甚至生命损失,也影响医疗体系公信力。据统计,国内外误诊率普遍在20%至40%左右。
MedFound的创新之处
最大规模的开源生物医学大语言模型
MedFound基于BLOOM-176B预训练,并利用MedCorpus数据集进行训练,该数据集包含63亿个文本标记,涵盖中英文医学文献、专业书籍和870万份真实电子病历记录。MedFound的开源特性使其能够为全球科研人员和医疗机构提供服务。
创新的临床诊断推理能力
MedFound-DX-PA模型在MedFound的基础上,通过两阶段训练优化,具备了接近专家知识和推理能力。第一阶段采用思维链方法,使其能够自动生成诊断依据和推理过程;第二阶段引入统一的偏好对齐框架,确保诊断结果科学合理且符合临床实践。
惊人的演示成绩
在MedDX-Bench数据集上的评估显示,MedFound-DX-PA的性能优于其他领先的LLM,在常见和罕见疾病诊断中均表现出色。在与医生的对比中,其诊断准确率与高年资医生相当,甚至在某些方面能够提高医生的诊断精度。
AI4S的应用落地
MedFound的成功案例展示了AI for Science (AI4S)在生物医学领域的巨大潜力。王光宇教授团队长期致力于AI与生物医学的融合研究,此前已在Cell和Nature Medicine等期刊发表多篇具有国际影响力的论文。 其他团队也在积极探索LLM在医疗领域的应用,例如香港中文大学的DrHouse系统和上海交通大学的多语言医学大语言模型MMed-Llama 3。
未来展望
AI与生物医学的融合正加速发展,AI强大的计算能力和数据处理能力为传统医学研究带来了新的效率和可能性。MedFound等模型的出现,标志着AI辅助诊断技术正走向成熟,有望显著提高疾病诊断的准确性和可及性,为智慧化临床诊疗和个性化医疗提供有力支持。 “落地为王”的时代已经到来,AI技术将在实际应用中发挥越来越重要的作用。
联系作者
文章来源:HyperAI超神经
作者微信:
作者简介:解构技术先进性与普适性,报道更前沿的 AIforScience 案例