标签:问题

Mistral AI两:7B数学推理专用、Mamba2架构代码大模型

机器之心报道 机器之心编辑部网友很好奇,Mathstral能不能搞定「9.11和9.9谁大」这一问题。昨天,AI圈竟然被「9.11和9.9谁大」这样简单的问题攻陷了,包括Ope...
阅读原文

13.11 和 13.8 哪个大,不只是人类,为什么连大模型也翻车了?

以下文章转载自公众号「量子位」,Founder Park 略有增删。7月12日晚,《歌手 2024》第十期竞演排名公布,每位选手的名字后是得票率,有观众在社交媒体评论区...
阅读原文

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

梦晨 一水 发自 凹非寺量子位 | 公众号 QbitAI没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了?? 强如GPT-4o,都坚定地认为9.11更大。...
阅读原文

OpenAI华人女科学家万字详解大模型「外在幻觉」

夕小瑶科技说 分享来源 | 量子位 大模型幻觉还分内在、外在了—— OpenAI华人科学家翁荔最新Blog,提出LLM外在幻觉(extrinsic hallucination)。 有别于代指模...
阅读原文

科普之旅 :大语言模型的思维链

大数据文摘受权转载数据派THU 作者:胡赟豪 ‍‍‍在这个信息爆炸的时代,你是否曾幻想过与机器流畅交谈,或是让AI助你笔下生花,创作出惊艳的文章?这一切,都...
阅读原文

阿里妈妈给出了什么样的赛题,被顶会NeurIPS 2024 pick了?

机器之心原创 作者:张倩会「出价」也是个很实用的技能。在众多人工智能顶会中,NeurIPS 属于什么段位?有人将其代入《甄嬛传》宇宙做了张图:大概配享「后位...
阅读原文

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

OpenAI Lilian Weng万字长文解读LLM幻觉:从理解到克服

机器之心报道 编辑:Panda WLilian Weng 出品,必是精品。人会有幻觉,大型语言模型也会有幻觉。近日,OpenAI 安全系统团队负责人 Lilian Weng 更新了博客,...
阅读原文

OpenAI新模型「草莓」曝光:强推理/长任务规划/超大规模训练!还给出AGI分级

明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI最新绝密项目曝光! 知情人士透露,OpenAI正在开发一个名为“草莓(Strawberry)”的新模型,它的前身是Q...
阅读原文

创业者复盘:如何判断出海 AI 产品该不该立项?

近两年最热的赛道就是 AI 了,我们技术团队早在去年上半年就开始布局相关的技术研究,但现在一年多时间过去了,产品上却迟迟没有做任何与 AI 相关的功能。 是...
阅读原文

有了ChatGPT,还需要人类程序猿编码吗?

6月,IEEE刊登了一篇对ChatGPT代码生成任务进行系统评估的论文,数据集就是程序员们最爱的LeetCode题库。研究揭示了LLM在代码任务中出现的潜在问题和能力局限...
阅读原文

RAG 技术在金融支付类 ToC 应用场景中的探索与实践

嘉宾|王良平安壹钱包用户研发部技术负责人 编辑|黄雯希 支付行业作为金融生态系统中的重要组成部分,其数字化转型不仅关系到企业自身的竞争力,更直接影响...
阅读原文

语义熵识破LLM幻觉!牛津大学新研究登Nature

新智元报道编辑:alan 【新智元导读】近日,来自牛津大学的研究人员推出了利用语义熵来检测LLM幻觉的新方法。作为克服混淆的策略,语义熵建立在不确定性估计...
阅读原文

裁决中的P与NP以及复杂性的复杂度

作者:Benjamin Skuse 译者:zzllrr小乐 如果我请你出庭作证,对一长串数字按照从低到高的顺序进行排序,与解决一个巨大的数独难题一样复杂,你可能会认为我...
阅读原文

微软中国CTO韦青:亲身经历大模型落地的体会与思考

演讲嘉宾 | 韦青 微软(中国)公司 / 首席技术官 编辑 | 蔡芳芳 傅宇琪 在大模型、AIGC 的冲击下,大多数人把目光聚焦在技术浪潮上,聚焦在那些“容易解决”的...
阅读原文
1111213141536