英伟达开源合成数据大模型：奖励模型，超过GPT-4 Turbo

AIGC动态1年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：英伟达开源合成数据大模型：奖励模型，超过GPT-4 Turbo
关键字：模型,数据,自然语言,高效,框架
文章来源：算法邦
内容字数：0字

内容摘要：

直播预告 | 6月18日上午10点，「智猩猩AI新青年讲座」第240讲正式开讲，邀请到德州大学奥斯汀分校刘星超博士将直播讲解《利用直线概率流加速Stable Diffusion的训练推理》，欢迎扫名~6月15日，全球AI领导者英伟达（Nvidia）在官网开源了，专门用于生成合成数据的大模型Nemotron-4 340B。
开发人员通过该模型，可以快速生成医疗、金融、制造、营销等不同领域的数据，用于预训练和微调特定的大模型。
据悉，Nemotron-4 340B一共有基础模型、奖励模型和指导模型三个版本，支持RLHF（人类反馈强化学习）、LoRA（低序适配）、SFT（监督式微调）等主流高效微调方法。
其中，奖励模型版本更是登上了huggingface的奖励模型排行榜的第一名，击败了OpenAI的GPT-4 turo、谷歌的Gemini-1.5 Pro、Cohere的may等知名厂商的产品。
而指导模型在MMLU、GSM8K、MBPP等知名测试平台的评估数据击败了Llama-3 70B、通义千问-2-72B、Claude-3-Sonnet等知名开/闭源模型，仅次于OpenAI的GPT-

原文链接：英伟达开源合成数据大模型：奖励模型，超过GPT-4 Turbo