基准 - 第 2 页

自动化、可复现，基于大语言模型群体智能的多维评估基准Decentralized Arena来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

最强小模型又易主！Mistral发布小部长Ministral 3B、8B，边缘计算之王！

夕小瑶科技说原创作者 | 付奶茶家人们，就在今天，Mistral 7B发布一周年之际，小模型的宝座又易主了！ Mistral研究团队发布了两款新的边缘计算小模型：Minis...

阅读原文

AIGC动态

2年前 (2024)

英伟达开源最新大模型Nemotron 70B后，只有OpenAI o1一个对手了

机器之心报道编辑：杜伟、陈陈英伟达不仅要做显卡领域的领先者，还要在大模型领域逐渐建立起自己的优势。今天，英伟达又开源了一个性能超级强大的模型 —— Ll...

阅读原文

AIGC动态

2年前 (2024)

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

新智元报道编辑：Aeneas 好困【新智元导读】「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的Sonnet ...

阅读原文

AIGC动态

2年前 (2024)

Jim Fan再谈基准测试之弊！Hugging Face开源套件LightEval领跑LLM评估新篇章

新智元报道编辑：Mindy 【新智元导读】HuggingFace推出LightEval，为AI评估带来透明度和定制化，开启AI模型评估的新时代。在AI的世界里，模型的评估往往被看...

阅读原文

AIGC动态

2年前 (2024)

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

机器之心报道编辑：佳琪、PandaMolmo，开源多模态模型正在发力！虽然大家一直在期待谷歌、OpenAI 等等拥有无限资金储备和顶尖人才的大厂做出新的 Sota 模型...

阅读原文

AIGC动态

2年前 (2024)

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Bench：最强模型仅有21%准确率

新智元报道编辑：LRS 【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的...

阅读原文

AIGC动态

2年前 (2024)

抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题

新智元报道编辑：LRS 【新智元导读】随着AI模型的水平不断提高，现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏，悬赏50万美元，...

阅读原文

AIGC动态

2年前 (2024)

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

文章转载自公众号：AIGC开放社区，本文只做学术/技术分享，如有侵权，联系删文。今天凌晨，阿里巴巴官宣了史上最大规模的开源发布，推出了基础模型Qwen2.5、...

阅读原文

AIGC动态

2年前 (2024)

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

新智元报道编辑：LRS 【新智元导读】MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新...

阅读原文

AIGC动态

2年前 (2024)

AI突破性进展，OpenAI GPT o1 原理与安全最新研究报告（80页）

“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展。（关于欧米伽...

阅读原文

AIGC动态

2年前 (2024)

OpenAI o1模型问世，五级AGI再突破！推理极限超博士，清北复旦华人立功

新智元报道编辑：编辑部【新智元导读】OpenAI的「草莓」——o1系列模型，居然迅雷不及掩耳地上线了！在复杂推理、数学和代码问题上，它又提升到了全新高度，可...

阅读原文

AIGC动态

2年前 (2024)

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

机器之心报道机器之心编辑部大模型领域的技术发展，今天起再次「从 1 开始」了。大语言模型还能向上突破，OpenAI 再次证明了自己的实力。北京时间 9 月 13...

阅读原文

AIGC动态

2年前 (2024)

欧洲名将 Mistral 发布首个多模态模型，12B 开源下载，黄仁勋站台

法国 AI 初创 Mistral AI，又扔出一条磁力链炸场了。这次，与以往不同的是，他们发布了首个多模态模型 Pixtral 12B，集语言、视觉能力于一身。这意味着，Mi...

阅读原文

AIGC动态

2年前 (2024)

标签：基准