AIGC动态欢迎阅读
原标题:ChatGPT一周年:开源语言大模型的冲击
关键字:报告,模型,数据,任务,性能
文章来源:人工智能学家
内容字数:17360字
内容摘要:
自2022年末发布后,ChatGPT给人工智能的研究和商业领域带来了巨大变革。通过有监督微调和人类反馈的强化学习,模型可以回答人类问题,并在广泛的任务范围内遵循指令。在获得这一成功之后,人们对LLM的兴趣不断增加,新的LLM在学术界和工业界不断涌现,其中包括许多专注于LLM的初创公司。
尽管闭源LLM(如OpenAI的GPT、Anthropic的Claude)通常优于其对应的开源模型,但后者的进展十分迅速,并且声称在某些任务上取得了与ChatGPT相当甚至更好的表现。这不仅深刻影响了语言大模型的研究,同时还具有非凡的商业价值。在ChatGPT发布一周年之际,本文旨在提供开源LLM这一成功的全面综述,并全面调研了开源LLM声称已达到或超过ChatGPT水平的任务。
注:本文最新版本更新至12月5日,暂未收录近期发布的首个开源MoE大模型Mixtral(8x7B),据称已达到甚至超越了LLaMA2(70B)和GPT-3.5的水平。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://arxiv.org/pdf/2311.16989.pdf)来源:OneFlow
作者:H
联系作者
文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...