RAG 驱动的 Copilot 为 Uber 节省了 13,000 个工程小时

作者 | Eran Stiller
译者 | 王强
策划 | Tina Uber 最近详细介绍了它构建 Genie 的经历,这是一款由 AI 驱动的随时待命的 Copilot,旨在提高随时待命的支持工程师的效率。Genie 利用检索增强生成(RAG)技术提供准确的实时响应,并显著提高响应的速度和效率。自 2023 年 9 月推出以来,Genie 对 Uber 的支持团队产生了重大影响。它已在 154 个 Slack 频道中回答了超过 70,000 个问题,节省了大约 13,000 个工程小时,根据用户的评估,其回答有效率为 48.9%。Uber 的待命工程师通常花费大量时间答复重复的查询或浏览零散的文档,使用户难以找到答案。这些情况导致了响应时间过长和生产力下降,这也是构建 Genie 的驱动力。Uber 使用检索增强生成(RAG)来驱动 Genie。RAG 是一种创新方法,它将信息检索系统的优势与生成式 AI 模型相结合,以产生准确且相关的响应。它让 Uber 可以利用现有知识来源快速部署解决方案,这样就用不着 AI 模型微调所需的大量示例数据了。Genie 从各种内部来源提取数据,例如 Uber 的 wiki、Stack Overflow 和工程文档。信息被抓取后,使用 OpenAI 模型转换为向量嵌入,并存储在 Uber 的内部向量数据库 Search In Action(SIA)中。Genie 仅从预先批准的数据源提取数据,且不包含敏感数据,以避免泄露敏感信息。Genie 的整体架构(来源)当用户在 Slack 中提出问题时,查询会被转换为嵌入,Genie 会使用该嵌入在向量数据库中获取上下文相似的数据。然后它将这些数据输入到大型语言模型中,以根据检索到的信息生成准确的响应。Uber 实施了一个指标框架,通过持续的实时用户反馈来提高 Genie 的性能。在 Genie 回答问题后,用户可以通过选择“已解决”、“有帮助”或“不相关”等选项来提供反馈。Genie 的用户反馈流程(来源)这些反馈通过 Slack 插件收集,并使用 Uber 的内部数据流系统处理,将指标发送到 Hive 表中分析。反馈循环允许 Uber 的团队跟踪 Genie 的帮助有效率,并根据真实的用户体验改进其响应。对于性能评估,Uber 设计了一个自定义评估管道,用于评估各种指标,例如幻觉率和响应的相关性。该管道处理的是历史数据,包括 Slack 元数据、用户反馈和 Genie 以前的响应。它通过由 LLM 提供支持的评分系统来处理这些数据,用这个系统充当评判者。Uber 还采用了一套文档评估流程,以保障 Genie 在其响应中检索和使用的信息的质量。系统将抓取的知识库转换为结构化格式,其中一行代表一个文档。文档评估应用程序的工作流程(来源)Genie 将这些文档输入带有自定义评估提示的 LLM 来评估每个文档的清晰度、准确性和实用性。然后,LLM 返回分数并提供改进每个文档的可行建议。此过程有助于保持底层文档的高标准,确保 Genie 的响应保持可靠和有效。查看原文链接:https://www.infoq.com/news/2024/10/uber-genie-rag-copilot/声明:本文为 InfoQ 翻译,未经许可禁止转载。会议推荐12 月 13 日至 14 日(周五至周六),AICon 全球人工智能开发与应用大会将在北京盛大开幕!本次大会汇聚 70+ 位 AI 及技术领域的顶尖专家,深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外还有丰富的圆桌论坛、以及展区活动,带你深入探索大模型的最新实践与未来趋势。年度最后一次 AI 盛宴,让我们一起见证 AI 未来。今日荐文阿里合伙人为“爹味发言”道歉:自罚三个月工资;美图出售加密货币获利5.7亿;亏损11亿、上市对赌失败,公司启动全员降薪 | AI周报OpenAI深夜炸场!一口气放出o1模型全家桶,月费200美元的ChatGPT Pro被狂槽:Altman只想躺在上数钱谷歌最强世界模型“硬控”OpenAI 一分钟:智能体交互、替你玩游戏!等等,智能体们早在游戏里 cosplay、交友了!被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?裁掉 1.5 万人后,英特尔传奇 CEO :18 岁入职,风雨 40 载,如今成了“背锅侠”?你也「在看」吗?👇

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...