2024KDD挑战任务，GPT-4仅得40分，Meta发布最新RAG评价基准

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：2024KDD挑战任务，GPT-4仅得40分，Meta发布最新RAG评价基准
关键字：问题,答案,报告,图谱,任务
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | Axe_越众所周知，“要想富，先修路”，经常挖路的同学应该知道，要想修好一条路，首先就必须搞清楚关于道路质量的统一验收标准，否则，“我怎么知道我这条路能不能走通呢”？
对于AI领域来说，也同样如此。
还记得一年多以前，当第一批吃螃蟹的大佬们将检索增强生成（Retrieval-Augmented Generation，RAG）与LLM结合之后，由于补齐了LLM知识不足的短板，LLM立刻在各个领域的应用方面都迸发出了更大的潜力。
如今，RAG的范式已不再局限于将外部知识作为上下文补充的最传统范式，各种“联合训练”，“自我反思”，“前瞻性主动检索”方案百花齐放。然而时至今日，对于RAG对LLM的增强效果到底怎么样，仍然缺乏一个统一的验收标准。
为填补这一空缺，Meta最近发布了一套RAG评测基准，或许出乎大家的意料，哪怕是被大家公认最强的GPT-4在加上RAG之后，也仅仅只能勉强飘过40分（看了很多遍确认是百分制）！在LLM+RAG这条道路上，实际上我们还有太多值得继续探索和优化的事情。
论文标题:CRAG – Comprehensive RAG Benchmar

原文链接：2024KDD挑战任务，GPT-4仅得40分，Meta发布最新RAG评价基准

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文