Baichuan-M4

Baichuan-M4 – 百川智能联合清华推出的医疗增强模型

Baichuan-M4：引领医疗AI新纪元的智能诊断伙伴

在人工智能飞速发展的浪潮中，医疗健康领域正迎来前所未有的变革。百川智能携手清华大学，重磅推出新一代医疗增强大模型——Baichuan-M4。这款模型不仅在HealthBench综合、Hard、Professional三大权威榜单上摘得世界第一的桂冠，更将幻觉率降至令人瞩目的3.3%，成为行业内的最低标杆。Baichuan-M4的问世，标志着AI在医疗领域的应用已从被动应答迈向主动诊疗，真正实现“会看病”。

Baichuan-M4的独特之处

Baichuan-M4不仅仅是一个问答机器，它更是一位充满智慧的虚拟临床医生。它突破了传统通用大模型在信息获取上的局限，聚焦于深度问诊、全病程记忆、证据锚定与Agent自主调度四大核心能力，旨在让AI真正具备临床诊断的潜力。

核心功能解析

主动深度问诊：模拟资深医生的多轮追问，Baichuan-M4能够引导患者提供更详尽的症状信息，优先识别潜在的危急重症，而非被动等待所有信息。
贯穿始终的病程记忆：模型能够整合患者的历史病历、多次问诊记录、化验单趋势以及用药反馈，在长期的对话中始终保持对患者完整病史的掌握。
严谨的证据溯源：Baichuan-M4生成的每一项医学结论，都精确对应着权威论文或医学指南的具体章节，确保了信息的来源可追溯、可验证，极大地增强了诊断的可靠性。
智能体自主调度：借助Baichuan-Harness技术，模型能够自主判断何时需要追问、何时需要检索病史或进行复盘，能够并行处理复杂的子任务，显著提升了工作效率。
坚实的安全保障：模型内置实时拦截机制，能够有效防止违规工具调用、越权数据访问以及任何不符合临床规范的操作，确保了医疗数据的安全性和操作的合规性。

技术驱动下的创新原理

OSCE启发的动态问诊模式：借鉴医学教育中的客观结构化临床考试（OSCE）理念，结合150余位一线医生的智慧，构建了SCAN-bench评测体系。模型通过多轮动态交互，如同真实接诊流程，主动探寻症状的性质与诱因，逐步缩小诊断范围，避免了为求速效而忽略关键病史的风险。
长时效全病程记忆机制：打破了单次对话的记忆限制，Baichuan-M4采用了创新的长上下文临床记忆机制。它能够持续整合结构化的病历、既往问诊摘要、检查结果及用药反馈，在跨越时间线的多次交流中，始终精准把握患者的身份、既往病史及各项指标的变化，为实现精准医疗奠定了坚实的数据基础。
“六源循证”与精确证据锚定：遵循“六源循证”的严谨范式，模型仅从权威医学来源检索信息，杜绝了从开放网络抓取的不确定性。它将医学指南、专家以及真实诊疗流程细化为超过1000个标准化的临床路径单元，覆盖200余种疾病。模型的输出结果能够精确锚定到原始文献的具体段落，而非简单标注文献编号，确保了引用精度高达90.0%。
Baichuan-Harness Agent架构：作为医疗智能体的“大脑”，Baichuan-Harness Agent能够自主协调问诊、记忆、循证三大模块的工作时机。面对复杂任务时，它能将其分解为子任务并行处理，有效降低了主Agent的上下文负担。同时，内置的实时安全防护栏能够阻止未授权的工具调用和数据访问，并支持线上疑难案例的回流迭代，不断优化模型性能。

便捷的使用流程

初步症状描述：用户可以通过百川智能的产品入口，简述当前的身体不适，或上传相关的化验单。
智能主动追问：Baichuan-M4将自动发起一系列有针对性的追问，引导用户补充症状的部位、持续时间、诱因以及既往病史等关键信息。
生成结构化问诊卡：在完成信息收集后，模型会将病史与症状整理成一份结构化的问诊卡，并提供初步的就诊建议。
持续的随访管理：用户后续可以随时补充新的症状或检查结果，Baichuan-M4将基于其全病程记忆能力，持续跟踪患者病情的演变。

Baichuan-M4的卓越优势

评测结果遥遥领先：在HealthBench三大榜单上均位列世界第一，综合得分高达68.6，大幅领先第二名GPT-5.5超过10分。
幻觉率行业最低：事实性幻觉率仅为3.3%，显著低于GPT-5.5（3.8%）和DeepSeek-V4-Pro（9.8%）。
问诊能力碾压式领先：在SCAN-bench评测中，初诊得分79.0，复诊得分74.7，均远超主流通用大模型。
循证精度极高：Baichuan-EBM评测显示，其引用精度高达90.0%，远高于GPT-5.5的54.7%。
长跨度记忆能力显著提升：长上下文临床记忆得分86.9，比上一代M3模型提升了21.1分。
临床落地性强：拥有超过1000个临床路径单元，覆盖200余种疾病，所有内容均经过资深专家校验。

技术论文链接：https://arxiv.org/pdf/2606.08982

竞品对比一目了然

对比维度	Baichuan-M4	GPT-5.5
HealthBench 综合	68.6（世界第一）	58.4
HealthBench Hard	49.7	33.8
HealthBench Prof	55.1	51.8
幻觉率	3.3%（行业最低）	3.8%
SCAN-bench 初诊	79.0	68.8
SCAN-bench 复诊	74.7	67.7
长上下文临床记忆	86.9	81.7
循证引用精度	90.0	54.7
问诊模式	原生深度主动追问，模拟临床医生多轮问询	依赖角色扮演提示驱动，易急于下结论
记忆机制	全病程记忆，跨时间线整合病历与随访	有限上下文记忆，长病程易遗忘早期信息
证据溯源	精确锚定到论文/指南具体段落	文献级引用，段落级精度不足
架构设计	Baichuan-Harness Agent 自主编排调度	需外部人工流程编排多模块协作
临床路径覆盖	1000+ 标准化路径单元，200+ 疾病	无原生临床路径体系