MMedAgent

MMedAgent – 专为医疗领域设计的多模态AI智能体，管理多种医疗任务

MMedAgent是什么

MMedAgent是一款专为医疗行业设计的多模态人工智能智能体，通过整合多种开源医疗模型来有效管理各类医疗任务。该系统包含一个经过指令调整的多模态大型语言模型（MLLM），充当行动规划器和结果汇总器，并配备了一系列专为医疗领域量身定制的工具，每个工具都针对特定的医疗任务进行优化。MMedAgent能够处理如MRI、CT、X射线等多种医学成像模式，从而支持临床实践中的多样化数据类型。通过理解用户指令及医学影像，该系统生成格式化指令以调用特定工具，并将工具的输出汇聚起来，提供准确、全面的回复。MMedAgent在多种医疗任务中的表现超过了现有的开源解决方案，甚至优于一些闭源模型如GPT-4o。

MMedAgent

MMedAgent的主要功能

多模态任务处理：MMedAgent能够处理多种语言和多模态任务，包括接地、分割、分类、医学报告生成（MRG）和检索增强生成（RAG）。
医疗影像支持：该系统支持多种医学成像方式，如MRI、CT和X射线，灵活应对临床实践中遇到的各类数据。
工具集成与调用：MMedAgent整合了多个工具，涵盖七个重要的医疗任务，能够根据用户指令选择合适的工具进行调用。
指令微调：通过创建指令调整数据集，MMedAgent训练多模态大型语言模型（MLLM）以理解和执行用户的指令。
结果聚合：MLLM作为结果汇总器，将工具的输出与用户的指令和图像相结合，生成最终的响应。
端到端训练：MMedAgent采用自回归目标对生成的序列进行端到端训练，确保模型能正确使用工具并根据工具的结果回答问题。

MMedAgent的技术原理

系统架构：MMedAgent由两个核心部分构成：
- 一个经过指令调整的多模态大型语言模型（MLLM），作为行动规划器和结果汇总器。
- 为智能体专门定制的一系列医疗工具，每个工具都针对医疗领域的特定任务。
工作流程：MMedAgent的工作流程分为四个步骤：
- 用户提供指令和医疗图像。
- MLLM解析指令和图像，生成格式化指令以调用特定工具。
- 执行工具并返回结果。
- MLLM将工具的输出与用户指令和图像结合，生成最终答案。
指令微调：MMedAgent采用统一的对话格式，以确保其在行动规划和结果汇总中的角色。在接收到用户输入后，MMedAgent生成三个部分：
- Thought（思考）：判断是否需要调用外部工具。
- API Name和API Params（API名称和参数）：API调用的名称和参数。
- Value（值）：由MLLM聚合的工具输出和自然语言回应。
自回归目标训练：MMedAgent通过自回归目标对生成的序列进行端到端训练，以确保模型能够正确使用工具并根据工具的输出作出回答。

MMedAgent的项目地址

Github仓库：https://github.com/Wangyixinxin/MMedAgent
arXiv技术论文：https://arxiv.org/pdf/2407.02483

MMedAgent的应用场景

视觉问答（VQA）：MMedAgent能够处理与医学影像相关的问题，基于图像内容提供答案，支持MRI、CT、X射线、组织学和大体病理学等多种影像模态。
分类任务：通过使用BiomedCLIP工具，MMedAgent能够进行零样本和细粒度的医学图像分类。
定位和分割任务：MMedAgent集成了Grounding DINO和MedSAM工具，应用于医学影像的定位和分割任务，包括基于边界框提示的分割（Segmentation）和基于文本提示的分割（G-Seg）。
医学报告生成（MRG）：借助ChatCAD工具，MMedAgent能够从X光图像生成准确的医学报告。
检索增强生成（RAG）：MMedAgent通过ChatCAD+工具，从外部数据源获取最相关的信息，支持医疗检索流程。
跨模态医学任务处理：MMedAgent能够灵活利用各种医疗工具，处理跨不同成像模态的广泛医学任务。