标签:测试

中国存储厂,杀入顶分桌

如果不是 2016 年,AI 在围棋上大放异彩,关于高性能存储的故事本不会这么复杂——它应该是一场玩家数量极其有限的牌局,由英特尔、IBM、DataDirect Networks、...
阅读原文

神秘模型“小熊猫”一夜刷屏:排名超Flux、Midjourney,网友:一看就中国的

一水 发自 凹非寺量子位 | 公众号 QbitAI一夜之间,名为“red_panda”(小熊猫)的神秘文生图模型狠狠火了!! 登顶文生图竞技场,直接将Flux、Midjourney等一...
阅读原文

AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭

新智元报道编辑:桃子 【新智元导读】Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短...
阅读原文

靠AI,2年时间大涨4倍!扒一扒你每天都用的这只小绿鸟

衡宇 克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI还是个亏成无底洞的销金窟,但借力OpenAI输出的语言学习软件,已经赚得起飞了。 没错,就是你可能也很...
阅读原文

国产底盘约战奔驰S级,结果太让人意外了…

一凡 发自 凹非寺量子位 | 公众号 QbitAIAI正在重塑千行万业,汽车工业也不例外。 最近,奔驰S级和蔚来ET7在北京顺义的专业测试场地,进行了底盘对比测试。 ...
阅读原文

这个重磅新功能让大模型像人类一样操控鼠标、键盘,成熟的 AI 要学会自己打工了

一句话 模拟人类 用电脑天下苦 OpenAI 挤牙膏久矣。 环顾宇内,能够与 OpenAI 抗衡的对手屈指可数,Anthropic 旗下的 Claude 模型算是一个靠谱的劲敌。 盼星...
阅读原文

推理?别闹了!现在的 AI 仍然连小学数学题都搞不定!

“ 研究发现,尽管OpenAI和Google等公司强调其AI模型的推理能力,但苹果的研究表明,当前的大型语言模型(LLMs)在面对微小变化时,推理能力脆弱且不可靠。测...
阅读原文

「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

新智元报道编辑:Aeneas 好困 【新智元导读】「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的Sonnet ...
阅读原文

Jim Fan再谈基准测试之弊!Hugging Face开源套件LightEval领跑LLM评估新篇章

新智元报道编辑:Mindy 【新智元导读】HuggingFace推出LightEval,为AI评估带来透明度和定制化,开启AI模型评估的新时代。在AI的世界里,模型的评估往往被看...
阅读原文

Windows 竞技场:面向下一代AI Agent的测试集

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA

新智元报道编辑:桃子 好困 【新智元导读】LLM不会规划,大推理模型o1可以吗?ASU团队最新研究发现,o1-preview推理规划能力是所有模型之最,但仍未触及天花...
阅读原文

无谓加班拖慢开发、AI 自动测试会给自己挖坑?世界编程大师:不懂编程只会用 AI 助手是行业灾难!

编辑 | 蔡芳芳、Tina 在当今快速发展的软件行业中,不断涌现的新理念、技术和工具对开发者的工作方式产生了深远的影响。那么,敏捷开发在现代软件开发中还适...
阅读原文

调研219篇文献,全面了解GenAI在自适应系统中的现状与研究路线图

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间,旧范式还没有死

小交 发自 凹非寺量子位 | 公众号 QbitAI数学击败o1-preview,成本仅为十分之一,并且几乎没有思考延迟! OpenAI《Her》全量开放同一天,谷歌Gemini 1.5迎来...
阅读原文

LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

机器之心报道 编辑:陈陈、小舟实验证明,大模型的 System 2 能力还有待开发。 规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语...
阅读原文
123413