标签:测试
耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA
新智元报道编辑:桃子 好困 【新智元导读】LLM不会规划,大推理模型o1可以吗?ASU团队最新研究发现,o1-preview推理规划能力是所有模型之最,但仍未触及天花...
无谓加班拖慢开发、AI 自动测试会给自己挖坑?世界编程大师:不懂编程只会用 AI 助手是行业灾难!
编辑 | 蔡芳芳、Tina 在当今快速发展的软件行业中,不断涌现的新理念、技术和工具对开发者的工作方式产生了深远的影响。那么,敏捷开发在现代软件开发中还适...
调研219篇文献,全面了解GenAI在自适应系统中的现状与研究路线图
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间,旧范式还没有死
小交 发自 凹非寺量子位 | 公众号 QbitAI数学击败o1-preview,成本仅为十分之一,并且几乎没有思考延迟! OpenAI《Her》全量开放同一天,谷歌Gemini 1.5迎来...
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
机器之心报道 编辑:陈陈、小舟实验证明,大模型的 System 2 能力还有待开发。 规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语...
o1突发内幕曝光?谷歌8月论文已揭示原理,大模型光有软件不存在护城河
明敏 发自 凹非寺量子位 | 公众号 QbitAI发布不到1周,OpenAI最强模型o1的护城河已经没有了。 有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工...
OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?
机器之心报道 编辑:蛋酱、杨文o1消息满天飞。自从 OpenAI 发布了新模型 o1 后,它就承包了 AI 领域近几天的热搜: 有人用门萨智商测试题「拷问」它,竟测得 ...
超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛超越99.8%选手
新智元报道编辑:桃子 乔杨 【新智元导读】OpenAI博士级别的智能,真的实现了!一位UCI物理学博士实测o1,发现自己用时1年完成的博士论文代码,竟被AI在1个小...
GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现
负闻缠身的OpenAI又站起来了,你大爷还是你大爷。作者丨刘洁 编辑丨岑峰 天下武功唯快不破,但 OpenAI 不走寻常路,新出的 o1 系列宣告天下: 我们更慢,但更...
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
克雷西 发自 凹非寺量子位 | 公众号 QbitAI小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假—— 不仅官方宣称的成绩在第三方测试中大打折扣,模型还...
OpenAI神秘模型「草莓」两周内上线?数学推理暴涨,月收费200刀已有人付费
新智元报道编辑:Aeneas 好困 【新智元导读】就在刚刚,The Information曝出:OpenAI的草莓将于两周内上线!收费疑似200刀一个月,最大的特色就是比其他模型...
小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law
西风 发自 凹非寺量子位 | 公众号 QbitAI不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型! 谷歌DeepMind最新研究引发热议,甚至有人表示这...
反向和错位图灵测试:GPT-4比人类更「人性化」!
新智元报道编辑:lumina 【新智元导读】加州大学的研究人员通过反向和错位图灵测试,探讨了人类和AI在区分对话者是人类还是AI时的能力。但结果表明,在不进行...
用Test Time换Training Time能让LLM更强吗?
机器之心PRO · 会员通讯 Week 36---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. 用 Test Time 换 Training Time 能让 LLM 更强吗? Self...
Cursor创始人万字访谈:全球爆火的AI编程应用,真正找到PMF
Cursor 可谓是最近最火的 AI 代码类应用。 AI 大神 Andrej Karpathy 多次在推特上夸赞 Cursor,说 Cursor 的体验已经碾压式的超过了 GitHub Copilot。 8 月份...