微软论文意外「」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B

微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B

原标题:微软论文意外「」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B
文章来源:新智元
内容字数:11086字

微软华盛顿大学研究:GPT-4参数意外曝光,LLM在医疗错误检测中的表现

近日,一篇发表在arXiv上的论文意外曝光了OpenAI多个模型的参数,其中包括GPT-4、GPT-4o及其mini版本等。更令人惊讶的是,GPT-4o mini模型的参数量仅为80亿,远低于预期。该论文由微软和华盛顿大学的研究团队合作完成,主要关注的是利用大型语言模型(LLM)进行医疗错误检测和纠正。

1. **模型参数的意外披露:** 论文中意外披露了GPT-4参数约为1.76万亿,GPT-4o约为2000亿,GPT-4o mini约为80亿,o1-preview约为3000亿,o1-mini约为1000亿,Claude 3.5 Sonnet约为1750亿。这些参数值均为估算值。GPT-4o mini模型参数量之小引发了广泛讨论,部分网友推测其可能采用了MoE(混合专家)架构。

2. **MEDEC数据集的构建与特点:** 论文的核心是MEDEC数据集的介绍及应用。MEDEC是一个全新的临床笔记数据集,包含3848篇临床文本,涵盖诊断、管理、治疗、药物治疗和致病因子五种类型的医疗错误。该数据集的构建方法独特,结合了医学委员会考试题目和真实临床笔记,并由多位医学标注员进行标注,保证了数据的质量和可靠性。MEDEC数据集的出现,为评估LLM在医疗领域的应用提供了重要的基准。

3. **LLM在医疗错误检测和纠正中的表现:** 研究人员使用MEDEC数据集评估了包括GPT-4、Claude 3.5 Sonnet、o1系列和Gemini 2.0 Flash等多个先进LLM在医疗错误检测和纠正方面的表现。结果显示,这些LLM在错误检测和纠正方面表现良好,但仍存在一定的局限性,与人类医生的表现存在差距。例如,部分模型存在过度预测错误的情况(即产生幻觉)。此外,模型在基于真实临床笔记(UW子集)上的表现不如基于公开文本(MS子集)的表现好,这可能与模型预训练数据相关。

4. **研究结论与未来方向:** 研究表明,虽然LLM在医疗错误检测和纠正方面展现出潜力,但要达到人类医生的水平仍需进一步研究。未来的研究方向包括改进提示词设计、优化模型训练数据以及开发更有效的评估指标等。该研究强调了在将LLM应用于医疗领域时,需要谨慎评估其性能,并采取必要的措施来保证其安全性与可靠性。

5. **研究团队背景:** 该研究由微软和华盛顿大学的研究人员共同完成,团队成员包括来自应用科学、医学信息学和语言学等多个领域的专家,拥有丰富的研究经验和专业知识。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...