标签:测试
推理?别闹了!现在的 AI 仍然连小学数学题都搞不定!
“ 研究发现,尽管OpenAI和Google等公司强调其AI模型的推理能力,但苹果的研究表明,当前的大型语言模型(LLMs)在面对微小变化时,推理能力脆弱且不可靠。测...
Jim Fan再谈基准测试之弊!Hugging Face开源套件LightEval领跑LLM评估新篇章
新智元报道编辑:Mindy 【新智元导读】HuggingFace推出LightEval,为AI评估带来透明度和定制化,开启AI模型评估的新时代。在AI的世界里,模型的评估往往被看...
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
新智元报道编辑:Aeneas 好困 【新智元导读】「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的Sonnet ...
Windows 竞技场:面向下一代AI Agent的测试集
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA
新智元报道编辑:桃子 好困 【新智元导读】LLM不会规划,大推理模型o1可以吗?ASU团队最新研究发现,o1-preview推理规划能力是所有模型之最,但仍未触及天花...
无谓加班拖慢开发、AI 自动测试会给自己挖坑?世界编程大师:不懂编程只会用 AI 助手是行业灾难!
编辑 | 蔡芳芳、Tina 在当今快速发展的软件行业中,不断涌现的新理念、技术和工具对开发者的工作方式产生了深远的影响。那么,敏捷开发在现代软件开发中还适...
调研219篇文献,全面了解GenAI在自适应系统中的现状与研究路线图
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间,旧范式还没有死
小交 发自 凹非寺量子位 | 公众号 QbitAI数学击败o1-preview,成本仅为十分之一,并且几乎没有思考延迟! OpenAI《Her》全量开放同一天,谷歌Gemini 1.5迎来...
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
机器之心报道 编辑:陈陈、小舟实验证明,大模型的 System 2 能力还有待开发。 规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语...
o1突发内幕曝光?谷歌8月论文已揭示原理,大模型光有软件不存在护城河
明敏 发自 凹非寺量子位 | 公众号 QbitAI发布不到1周,OpenAI最强模型o1的护城河已经没有了。 有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工...
OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?
机器之心报道 编辑:蛋酱、杨文o1消息满天飞。自从 OpenAI 发布了新模型 o1 后,它就承包了 AI 领域近几天的热搜: 有人用门萨智商测试题「拷问」它,竟测得 ...
超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛超越99.8%选手
新智元报道编辑:桃子 乔杨 【新智元导读】OpenAI博士级别的智能,真的实现了!一位UCI物理学博士实测o1,发现自己用时1年完成的博士论文代码,竟被AI在1个小...
GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现
负闻缠身的OpenAI又站起来了,你大爷还是你大爷。作者丨刘洁 编辑丨岑峰 天下武功唯快不破,但 OpenAI 不走寻常路,新出的 o1 系列宣告天下: 我们更慢,但更...
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
克雷西 发自 凹非寺量子位 | 公众号 QbitAI小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假—— 不仅官方宣称的成绩在第三方测试中大打折扣,模型还...
OpenAI神秘模型「草莓」两周内上线?数学推理暴涨,月收费200刀已有人付费
新智元报道编辑:Aeneas 好困 【新智元导读】就在刚刚,The Information曝出:OpenAI的草莓将于两周内上线!收费疑似200刀一个月,最大的特色就是比其他模型...