医疗领域基准测试超越Llama 3、接近GPT-4，上海交大团队发布多语言医学大模型，覆盖6国语言

AIGC动态2年前 (2024)发布 HyperAI超神经

AIGC动态欢迎阅读

原标题：医疗领域基准测试超越Llama 3、接近GPT-4，上海交大团队发布多语言医学大模型，覆盖6国语言
关键字：模型,语料库,医疗,医学,研究人员
文章来源：HyperAI超神经
内容字数：0字

内容摘要：

作者：李宝珠
编辑：三羊
上海交通大学王延峰教授与谢伟迪教授团队创建了一个包含 255 亿 tokens 的多语言医疗语料库 MMedC，开发了一个覆盖 6 种语言的多语言医疗问答评测标准 MMedBench，同时还构建了一个 8B 的基座模型 MMed-Llama 3。此外，恰逢「1024 程序员节」，我们还为大家准备了超值算力福利，仅限今日，先到先得！随着医疗信息化的普及，医疗数据从规模到质量都实现了不同程度的提升。进入大模型时代以来，面向精准医疗、诊断辅助、医患交互等不同场景的各类大模型层出不穷。
但值得注意的是，正如通用模型所面临的多语言能力滞后问题一样，医疗大模型大多依赖于英语的基座模型，同时也受限于多语言医疗专业数据的匮乏、分散，导致模型在处理非英语任务时的表现欠佳。即便是医疗相关的开源文本数据，也主要以高资源语种为主，所支持的语种十分有限。
从模型训练的角度来看，多语言医疗模型能够更加全面地利用全球的数据资源，甚至是扩展到多模态训练数据，从而提升模型对其他模态信息的表征质量。从应用的层面来讲，多语言医疗模型能够帮助缓解医患之间的语言沟通障碍，在医患交互、远程诊断等多场景下

原文链接：医疗领域基准测试超越Llama 3、接近GPT-4，上海交大团队发布多语言医学大模型，覆盖6国语言