标签:基准
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
最强小模型又易主!Mistral发布小部长Ministral 3B、8B,边缘计算之王!
夕小瑶科技说 原创作者 | 付奶茶家人们,就在今天,Mistral 7B发布一周年之际,小模型的宝座又易主了! Mistral研究团队发布了两款新的边缘计算小模型:Minis...
英伟达开源最新大模型Nemotron 70B后,只有OpenAI o1一个对手了
机器之心报道 编辑:杜伟、陈陈英伟达不仅要做显卡领域的领先者,还要在大模型领域逐渐建立起自己的优势。今天,英伟达又开源了一个性能超级强大的模型 —— Ll...
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
新智元报道编辑:Aeneas 好困 【新智元导读】「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的Sonnet ...
Jim Fan再谈基准测试之弊!Hugging Face开源套件LightEval领跑LLM评估新篇章
新智元报道编辑:Mindy 【新智元导读】HuggingFace推出LightEval,为AI评估带来透明度和定制化,开启AI模型评估的新时代。在AI的世界里,模型的评估往往被看...
号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law
机器之心报道 编辑:佳琪、PandaMolmo,开源多模态模型正在发力!虽然大家一直在期待谷歌、OpenAI 等等拥有无限资金储备和顶尖人才的大厂做出新的 Sota 模型...
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
新智元报道编辑:LRS 【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的...
抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题
新智元报道编辑:LRS 【新智元导读】随着AI模型的水平不断提高,现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏,悬赏50万美元,...
阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!
文章转载自公众号:AIGC开放社区,本文只做学术/技术分享,如有侵权,联系删文。 今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、...
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
新智元报道编辑:LRS 【新智元导读】MMMU-Pro通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新...
AI突破性进展,OpenAI GPT o1 原理与安全最新研究报告(80页)
“欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展。(关于欧米伽...
OpenAI o1模型问世,五级AGI再突破!推理极限超博士,清北复旦华人立功
新智元报道编辑:编辑部 【新智元导读】OpenAI的「草莓」——o1系列模型,居然迅雷不及掩耳地上线了!在复杂推理、数学和代码问题上,它又提升到了全新高度,可...
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
机器之心报道 机器之心编辑部大模型领域的技术发展,今天起再次「从 1 开始」了。 大语言模型还能向上突破,OpenAI 再次证明了自己的实力。 北京时间 9 月 13...
欧洲名将 Mistral 发布首个多模态模型,12B 开源下载,黄仁勋站台
法国 AI 初创 Mistral AI,又扔出一条磁力链炸场了。 这次,与以往不同的是,他们发布了首个多模态模型 Pixtral 12B,集语言、视觉能力于一身。 这意味着,Mi...