标签：问题

Mistral AI两：7B数学推理专用、Mamba2架构代码大模型

机器之心报道机器之心编辑部网友很好奇，Mathstral能不能搞定「9.11和9.9谁大」这一问题。昨天，AI圈竟然被「9.11和9.9谁大」这样简单的问题攻陷了，包括Ope...

阅读原文

AIGC动态

2年前 (2024)

13.11 和 13.8 哪个大，不只是人类，为什么连大模型也翻车了？

以下文章转载自公众号「量子位」，Founder Park 略有增删。7月12日晚，《歌手 2024》第十期竞演排名公布，每位选手的名字后是得票率，有观众在社交媒体评论区...

阅读原文

AIGC动态

2年前 (2024)

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

梦晨一水发自凹非寺量子位 | 公众号 QbitAI没眼看……“9.11和9.9哪个大”这样简单的问题，居然把主流大模型都难倒了？？强如GPT-4o，都坚定地认为9.11更大。...

阅读原文

AIGC动态

2年前 (2024)

OpenAI华人女科学家万字详解大模型「外在幻觉」

夕小瑶科技说分享来源 | 量子位大模型幻觉还分内在、外在了—— OpenAI华人科学家翁荔最新Blog，提出LLM外在幻觉（extrinsic hallucination）。有别于代指模...

阅读原文

AIGC动态

2年前 (2024)

科普之旅：大语言模型的思维链

大数据文摘受权转载数据派THU 作者：胡赟豪 ‍‍‍在这个信息爆炸的时代，你是否曾幻想过与机器流畅交谈，或是让AI助你笔下生花，创作出惊艳的文章？这一切，都...

阅读原文

AIGC动态

2年前 (2024)

阿里妈妈给出了什么样的赛题，被顶会NeurIPS 2024 pick了？

机器之心原创作者：张倩会「出价」也是个很实用的技能。在众多人工智能顶会中，NeurIPS 属于什么段位？有人将其代入《甄嬛传》宇宙做了张图：大概配享「后位...

阅读原文

AIGC动态

2年前 (2024)

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

OpenAI Lilian Weng万字长文解读LLM幻觉：从理解到克服

机器之心报道编辑：Panda WLilian Weng 出品，必是精品。人会有幻觉，大型语言模型也会有幻觉。近日，OpenAI 安全系统团队负责人 Lilian Weng 更新了博客，...

阅读原文

AIGC动态

2年前 (2024)

OpenAI新模型「草莓」曝光：强推理/长任务规划/超大规模训练！还给出AGI分级

明敏克雷西发自凹非寺量子位 | 公众号 QbitAIOpenAI最新绝密项目曝光！知情人士透露，OpenAI正在开发一个名为“草莓（Strawberry）”的新模型，它的前身是Q...

阅读原文

AIGC动态

2年前 (2024)

创业者复盘：如何判断出海 AI 产品该不该立项？

近两年最热的赛道就是 AI 了，我们技术团队早在去年上半年就开始布局相关的技术研究，但现在一年多时间过去了，产品上却迟迟没有做任何与 AI 相关的功能。是...

阅读原文

AIGC动态

2年前 (2024)

有了ChatGPT，还需要人类程序猿编码吗？

6月，IEEE刊登了一篇对ChatGPT代码生成任务进行系统评估的论文，数据集就是程序员们最爱的LeetCode题库。研究揭示了LLM在代码任务中出现的潜在问题和能力局限...

阅读原文

AIGC动态

2年前 (2024)

RAG 技术在金融支付类 ToC 应用场景中的探索与实践

嘉宾｜王良平安壹钱包用户研发部技术负责人编辑｜黄雯希支付行业作为金融生态系统中的重要组成部分，其数字化转型不仅关系到企业自身的竞争力，更直接影响...

阅读原文

AIGC动态

2年前 (2024)

语义熵识破LLM幻觉！牛津大学新研究登Nature

新智元报道编辑：alan 【新智元导读】近日，来自牛津大学的研究人员推出了利用语义熵来检测LLM幻觉的新方法。作为克服混淆的策略，语义熵建立在不确定性估计...

阅读原文

AIGC动态

2年前 (2024)

裁决中的P与NP以及复杂性的复杂度

作者：Benjamin Skuse 译者：zzllrr小乐如果我请你出庭作证，对一长串数字按照从低到高的顺序进行排序，与解决一个巨大的数独难题一样复杂，你可能会认为我...

阅读原文

AIGC动态

2年前 (2024)

微软中国CTO韦青：亲身经历大模型落地的体会与思考

演讲嘉宾 | 韦青微软（中国）公司 / 首席技术官编辑 | 蔡芳芳傅宇琪在大模型、AIGC 的冲击下，大多数人把目光聚焦在技术浪潮上，聚焦在那些“容易解决”的...

阅读原文

AIGC动态

2年前 (2024)

1…11 121314 15…36