VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力
VisionFM(伏羲慧眼)是一款先进的多模态多任务视觉基础模型,专门为通用眼科人工智能而研发。该模型通过对340万张来自560,457名个体的眼科图像进行预训练,涵盖了多种眼科疾病、成像模式、设备和人口统计学信息。VisionFM能够处理八种常见的眼科成像形式,如眼底摄影、光学相干断层扫描(OCT)和荧光素眼底血管造影(FFA),并在眼科疾病检测、进展预测、疾病表型细分以及全身生物标志物和疾病预测等多项眼科AI任务中发挥重要作用。
VisionFM是什么
VisionFM(伏羲慧眼)是一款多模态、多任务的视觉基础模型,专为眼科人工智能的普及而设计。通过对340万张来自560,457个个体的眼科图像进行预训练,覆盖了丰富的眼科疾病、成像模式、设备及人群统计特征。VisionFM能够处理八种主流眼科成像形式,包括眼底摄影、光学相干断层扫描(OCT)和荧光素眼底血管造影(FFA),并广泛应用于眼科疾病的识别、疾病进展的预测、疾病表型的分类以及全身生物标志物和疾病的预测等多种任务。该模型在诊断12种常见眼科疾病方面的表现超过了基础和中级水平的眼科医生,并在大型眼科疾病诊断基准数据库中优于许多强大的基线深度神经网络。VisionFM还展现出对新眼科成像模态、疾病谱系及成像设备的良好泛化能力。
VisionFM的主要功能
- 疾病筛查与诊断:VisionFM具备筛查和诊断多种眼科疾病的能力,包括糖尿病视网膜病变、青光眼和老年性黄斑变性等。
- 疾病预后评估:模型可以预测疾病的发展趋势及其预后情况。
- 疾病表型细分:VisionFM能够进行疾病表型的细致分类,包括病变、血管和层的分割,以及地标检测。
- 全身生物标志物与疾病预测:除了眼部疾病,VisionFM还可从眼部图像中预测全身的生物标志物和相关疾病。
- 多模态处理能力:VisionFM支持处理包括眼底摄影、OCT、FFA等在内的八种常见眼科成像模式。
- 模态无关诊断:VisionFM实现了模态无关的诊断,能够通过单一解码器诊断不同成像模态中的多种眼科疾病。
- 少样本学习能力:VisionFM展现了在少量标注样本条件下进行高准确度诊断新疾病的能力。
- 强泛化能力:该模型对新的眼科成像模态、疾病谱系和成像设备展现出强大的泛化能力。
- 合成数据增强学习:VisionFM能够利用合成的眼科成像数据提升其表示学习能力,从而在后续的眼科AI任务中取得显著性能提升。
VisionFM的技术原理
- 大规模预训练:VisionFM基于深度学习的视觉基础模型,通过预训练340万张来自560,457个个体的眼科图像,覆盖了多种眼科疾病、成像模式和人口统计数据。
- 多模态多任务学习:VisionFM能够处理多种眼科成像模式,并应用于疾病筛查、诊断、预后评估等多项眼科AI任务。
- 专家级智能与准确性:经过预训练,VisionFM在多项眼科AI应用中展现出专家级的智能和准确性,特别是在联合诊断12种常见眼科疾病时超越了初级与中级眼科医生。
VisionFM的项目地址
- Github仓库:https://github.com/ABILab-CUHK/VisionFM
- arXiv技术论文:https://arxiv.org/pdf/2310.04992
VisionFM的应用场景
- 眼科临床任务:VisionFM可为眼科临床任务提供支持,尤其在疾病筛查和诊断方面表现优异。
- 多种眼科疾病诊断:该模型在多种眼科疾病的诊断与预测中表现出色,包括糖尿病视网膜病变、青光眼和老年性黄斑变性等。
- 基层医疗环境:在资源有限的基层医疗环境中,VisionFM能够发挥重要作用,减轻医生的工作负担。
- 低眼科医生密度地区:VisionFM在眼科医生稀缺的地区和国家尤为有用。
- 教育与培训:VisionFM可作为资深眼科医生,帮助培训初级眼科从业者,分享其在眼科影像和疾病诊断方面的广泛知识。
- 辅助生成诊断报告:此模型能够与大型语言模型(LLM)结合,生成诊断报告,完成眼科疾病诊断的闭环。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...