10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……

内含数据集下载地址

10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……

原标题:10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……
文章来源:HyperAI超神经
内容字数:4015字

HyperAI超神经推荐:10个中文医学数据集助力医疗AI发展

本文介绍了HyperAI超神经推荐的10个中文医学数据集,这些数据集涵盖了中医药、医学问答、医学推理等多个领域,旨在为医疗人工智能研究提供高质量的数据资源。文章由李姝撰写,李宝珠编辑,转载需获得授权并注明来源HyperAI超神经。

1. 数据集概述

医疗人工智能的快速发展依赖于高质量的数据集。这些数据集应用于疾病诊断、药物研发和个性化医疗等领域,推动机器视觉、大模型等技术在医学领域的应用。本文列出的数据集形式多样,涵盖不同维度和领域的数据资源,例如问答数据集、中医药数据集、医学对话数据集等,为研究人员提供丰富的选择。

2. 十个中文医学数据集详解

  1. 首个中文医疗专科问答推理数据集

    该数据集由蚂蚁集团和上海交通大学医学院附属仁济医院合作创建,专注于泌尿外科,采用Q-context-A格式,数据由专业医生编写,保护患者隐私。预估大小:2.34 MB。

  2. 中文医疗问答数据集

    这是一个包含6个不同医疗科室(男科、内科、妇产科、肿瘤科、儿科、外科)的问答数据集,总计792,099条数据,每个科室的数据以CSV文件形式存储。预估大小:279.64 MB。

  3. 医学对话数据集

    该数据集包含256,916条患者与医生之间的对话,用于训练医学机器人。预估大小:118.35 MB。

  4. 神农中医药数据集

    这是一个专门为中医药领域设计的大规模语言模型训练和评估数据集,包含超过11万个指令数据,用于提升模型在中医药相关问题的回答能力和辅助中医诊断。预估大小:28.98 MB。

  5. 中医药古籍数据集

    该数据集包含约700项中医药古籍文本,涵盖从先秦至清末民国的历代医药典籍,内容包括医学理论、方剂学、药物学等。预估大小:80.49 MB。

  6. 中医诊断数据集

    这是一个高质量的中医数据集,包含约1GB的中医临床案例、名家典籍、医学百科等内容,适用于预训练或继续预训练用途。预估大小:341.69 MB。

  7. 中医对话数据集

    这是一个用于开发和训练医疗领域语言模型的综合数据集,包含百科知识、教材文本、医患对话和评价数据。预估大小:737.32 MB。

  8. 医学推理数据集

    该数据集由香港中文大学和深圳市大数据研究院发布,用于微调HuatuoGPT-o1医学大语言模型,提升其在复杂医学推理任务中的表现。

  9. 多语言医学能力测试基准数据集

    该数据集由上海交通大学人工智能学院开发,用于评估医学领域多语言模型,涵盖6种语言和21种医学子领域。预估大小:20.69 MB。

  10. MMedC大规模多语言医疗语料库

    该数据集由上海交通大学人工智能学院构建,包含约255亿个tokens,涵盖英语、中文、日语、法语、俄语和西班牙语等6种语言。预估大小:31.05 GB。

3. 总结

HyperAI超神经提供的这10个中文医学数据集,为医疗人工智能研究提供了宝贵的数据资源。 读者可以通过文章中提供的链接访问和下载这些数据集,并进一步探索其在各自研究领域的应用。


联系作者

文章来源:HyperAI超神经
作者微信:
作者简介:解构技术先进性与普适性,报道更前沿的 AIforScience 案例

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止