标签:测试
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
NEO发布第一位自主机器学习工程师,MLE-bench秒杀了OpenAI o1
夕小瑶科技说 原创作者 | 海野今天刚刷到一家初创AI公司——NEO AI,一出手就是王炸! 他们是这样介绍第一个项目的:首个自主机器学习AI工程师。 官方还晒出一...
扩展测试时计算是万能的吗?Scaling What成为关键
机器之心PRO · 会员通讯 Week 46---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. 扩展测试时计算是万能的吗?Scaling What成为关键 传统...
苹果罕见原型机曝光,全压感按键 iPhone 或会出现
iPhone 原型机 又曝光在智能手机的发展初期,无按键手机曾经是所有厂商的终极愿景。 在 iPhone 诞生的前十年,这张图可是骗到我不止一次。 曾经盛传的 iPhone...
AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种
梦晨 发自 凹非寺量子位 | 公众号 QbitAI测评大模型Agent能力,从未如此直观。 新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量...
实测完 Mac mini 的 3D 渲染能力后,我们发现了一点惊喜
实践 出真知Mac mini,终究还是火出圈了。 自从发布和发售以来,大家对这台全新苹果主机的兴趣点,主要集中在以下几个方面: 体积很小,重量很轻,甚至开始重...
Ilya承认Scaling Law到头了,Meta和谷歌寻找替代o1的方法
夕小瑶科技说 原创作者 | 小鹿近期,全球科技界的目光都集中在OpenAI即将推出的下一代模型上,究竟会是o2还是GPT-5? o2代表了全新的训练范式,而GPT-5则代表...
Scaling Law撞南墙,MIT发现另一条路:测试时训练,推理能力最高升至5.8倍
夕小瑶科技说 分享作者 | 量子位o1不是通向大模型推理的唯一路径! MIT的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战超难的ARC...
连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路
机器之心报道 机器之心编辑部昨天,The Information 的一篇文章让 AI 社区炸了锅。 这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之...
o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍
克雷西 发自 凹非寺量子位 | 公众号 QbitAIo1不是通向大模型推理的唯一路径! MIT的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战...
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
新智元报道编辑:Hjh 【新智元导读】Epoch AI推出数学基准FrontierMath,目前前沿模型测试成功率均低于2%!OpenAI研究科学家Noam Brown说道:「我喜欢看到新...
AI落地千行百业,存储痛点凸显,浪潮信息如何助力AI向实?
存储成为AI向实关键。 作者|陈骏达 编辑|漠影 AI时代,存储不仅是数据的栖息之地,更是AI模型训练、落地过程中的坚实底座。 在AI开启的存储行业新周期中,众...
产品转型,创始人用48小时做了个demo,2 个月后公司卖了6.5亿美元
Casetext 是一家已经做了 12 年的公司,最初用技术提高法律领域的文件处理效率,从 UGC 网站转型到 AI 技术方案,顺利找到 PMF,ARR 2000 万美元,估值 1 亿...
o1图像理解神秘现身,网友疯狂测试!Altman自曝:o2研究生级水平破105%
新智元报道编辑:桃子 【新智元导读】完整版o1图像理解能力,被提前「放出」了?网友曝出o1能够识图,进行推理总结。现在,o1多模态一大波试用已经铺屏全网。...
大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑
奇月 发自 凹非寺量子位 | 公众号 QbitAI一群大模型玩你画我猜,人类一旁围观超起劲儿。 就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答...
谷歌Agent首次发现真实世界代码漏洞!抢救全球数亿设备,或挽回数十亿美元损失?
新智元报道编辑:Aeneas 好困 【新智元导读】AI首次发现真实世界中的重大安全漏洞?SQLite中的一个漏洞,幸运地被谷歌研究者的AI Agent发现了,修复后并未造...