标签:基准
ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练
机器之心报道 编辑:杜伟最近,开源大模型社区再次「热闹」了起来,主角是 AI 写作初创公司 HyperWrite 开发的新模型 Reflection 70B。 它的底层模型建立在 M...
开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集
西风 发自 凹非寺量子位 | 公众号 QbitAI开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。 新模型名为Reflection 70B,使用一种全新训练技术...
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
机器之心报道 编辑:Panda都很贵。AMD vs 英伟达绝对算是一个长盛不衰的话题 —— 从玩游戏用哪家强到如今训练 AI 哪个更高效?原因也很简单:它们的 GPU 产品...
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
机器之心报道 机器之心编辑部Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,...
英伟达Blackwell称霸MLPerf!推理性能暴涨30倍,新一代「AI怪兽」诞生
新智元报道编辑:乔杨 好困 【新智元导读】MLPerf Inference发布了最新测试结果,英伟达最新的Blackwell架构芯片上场与谷歌、AMD同场竞技,展现出明显的性能...
微软「小而美」系列三连发!视觉小钢炮PK GPT-4o,MoE新秀力压Llama 3.1
新智元报道编辑:耳朵 好困 【新智元导读】微软Phi 3.5系列上新了!mini模型小而更美,MoE模型首次亮相,vision模型专注多模态。就在今天,微软「小语言模型...
谢谢微软,又又又Open了!一口气发布3款Phi-3.5新模型,领先Llama3.1和谷歌同级模型
夕小瑶科技说 原创作者 | 付奶茶家人们!微软又用爱发电了!一觉醒来,微软发布了最新的小模型三兄弟: Phi-3.5-MoE-instruct Phi-3.5-mini-instruct Phi-3.5...
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
新智元报道编辑:桃子 【新智元导读】合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经...
同时操控手机和电脑,100项任务,跨系统智能体评测基准有了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1
机器之心报道 编辑:杜伟、陈陈Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来...
ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
无比喻,不论文!用「画家流水线」的方式理解Transformer中间层
新智元报道编辑:乔杨 庸庸 【新智元导读】Transformer架构层层堆叠,包含十几亿甚至几十亿个参数,这些层到底是如何工作的?当一个新奇的比喻——「画家流水线...
Github 1.3K星的程序开发智能体!UIUC/CMU/耶鲁等联合发布OpenDevin技术报告
夕小瑶科技说 原创作者 | Axe_越如果说Agent(智能体)为LLM(大模型)找到了一个落地的方向,那么可以想象,一种能够自动完成软件开发、数据分析、网页浏览...
跨平台多模态智能体基准测试来了!但全班第一只考了35.26分
新智元报道编辑:alan 好困 【新智元导读】近日,来自CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试,...