基准 - 第 3 页

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

新智元报道编辑：桃子好困【新智元导读】一条磁力链，又在AI圈掀起狂澜。成立一年法国AI独角兽Mistral，官宣首个多模态模型Pixtral 12B，不仅能看懂手绘稿...

阅读原文

AIGC动态

2年前 (2024)

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

机器之心报道编辑：杜伟最近，开源大模型社区再次「热闹」了起来，主角是 AI 写作初创公司 HyperWrite 开发的新模型 Reflection 70B。它的底层模型建立在 M...

阅读原文

AIGC动态

2年前 (2024)

开源大模型新王干翻GPT-4o，新技术可纠正自己幻觉，数学99.2分刷爆测试集

西风发自凹非寺量子位 | 公众号 QbitAI开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。新模型名为Reflection 70B，使用一种全新训练技术...

阅读原文

AIGC动态

2年前 (2024)

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带怕的

机器之心报道编辑：Panda都很贵。AMD vs 英伟达绝对算是一个长盛不衰的话题 —— 从玩游戏用哪家强到如今训练 AI 哪个更高效？原因也很简单：它们的 GPU 产品...

阅读原文

AIGC动态

2年前 (2024)

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

机器之心报道机器之心编辑部Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，...

阅读原文

AIGC动态

2年前 (2024)

英伟达Blackwell称霸MLPerf！推理性能暴涨30倍，新一代「AI怪兽」诞生

新智元报道编辑：乔杨好困【新智元导读】MLPerf Inference发布了最新测试结果，英伟达最新的Blackwell架构芯片上场与谷歌、AMD同场竞技，展现出明显的性能...

阅读原文

AIGC动态

2年前 (2024)

微软「小而美」系列三！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

新智元报道编辑：耳朵好困【新智元导读】微软Phi 3.5系列上新了！mini模型小而更美，MoE模型首次亮相，vision模型专注多模态。就在今天，微软「小语言模型...

阅读原文

AIGC动态

2年前 (2024)

谢谢微软，又又又Open了！一口气发布3款Phi-3.5新模型，领先Llama3.1和谷歌同级模型

夕小瑶科技说原创作者 | 付奶茶家人们！微软又用爱发电了！一觉醒来，微软发布了最新的小模型三兄弟： Phi-3.5-MoE-instruct Phi-3.5-mini-instruct Phi-3.5...

阅读原文

AIGC动态

2年前 (2024)

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学

新智元报道编辑：桃子【新智元导读】合成数据2.0秘诀曝光了！来自微软的研究人员们提出了智能体框架AgentInstruct，能够自动创建大量、多样化的合成数据。经...

阅读原文

AIGC动态

2年前 (2024)

同时操控手机和电脑，100项任务，跨系统智能体评测基准有了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

机器之心报道编辑：杜伟、陈陈Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来...

阅读原文

AIGC动态

2年前 (2024)

ACL 2024 Oral｜我们离真正的多模态思维链推理还有多远？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

无比喻，不论文！用「画家流水线」的方式理解Transformer中间层

新智元报道编辑：乔杨庸庸【新智元导读】Transformer架构层层堆叠，包含十几亿甚至几十亿个参数，这些层到底是如何工作的？当一个新奇的比喻——「画家流水线...

阅读原文

AIGC动态

2年前 (2024)

Github 1.3K星的程序开发智能体！UIUC/CMU/耶鲁等联合发布OpenDevin技术报告

夕小瑶科技说原创作者 | Axe_越如果说Agent（智能体）为LLM（大模型）找到了一个落地的方向，那么可以想象，一种能够自动完成软件开发、数据分析、网页浏览...

阅读原文

AIGC动态

2年前 (2024)

标签：基准