英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大
关键字：模型,研究者,数据,上下文,指令
文章来源：机器之心
内容字数：7875字

内容摘要：

机器之心报道
编辑：大盘鸡、杜伟昨天，Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，从而在 Llama 2 70B 的迭代微调后超越了 GPT-4。今天，英伟达的全新对话 QA 模型「ChatQA-70B」在不使用任何 GPT 模型数据的情况下，在 10 个对话 QA 数据集上的平均得分略胜于 GPT-4。一年多来，ChatGPT 及后续产品引发了生产和研究社区中构建问答（QA）模型的范式转变。尤其是在实际应用中，QA 模型在以下情况成为首选：
用户能够以对话方式与 QA 模型进行交互，并可以轻松提出后续问题；
通才模型能够以零样本方式生成答案，无需针对数据集进行微调，同时媲美微调专家模型的准确度；
QA 模型能够在开放域或长文档设置中集成检索到的证据块，提供的上下文比 LLM 的上下文窗口长得多。
不过对于研究界而言，构建一个能够媲美 GPT-4 等 SOTA 黑箱模型准确度的对话 QA 模型仍是一个巨大挑战。
近日，在英伟达的一篇论文中，研究者提出了一个具有 GPT-4 级别准确度的白箱对话 QA 模型 ChatQA 70B。他们采用了两阶段指令调优

原文链接：英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大