标签：基准

跨平台多模态智能体基准测试来了！但全班第一只考了35.26分

新智元报道编辑：alan 好困【新智元导读】近日，来自CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试，...

阅读原文

AIGC动态

2年前 (2024)

Meta 科学家揭秘 Llama 3.1：合成数据很重要，MoE 不是必须的

刚刚发布的开源「巨无霸」Llama 3.1 虽然自带论文，但依旧激起了广大网友强烈的好奇心和求知欲。 Llama 3.1 都使用了哪些数据？其中有多少合成数据？为什么不...

阅读原文

AIGC动态

2年前 (2024)

Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

新智元报道编辑：乔杨【新智元导读】最近，Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路，...

阅读原文

AIGC动态

2年前 (2024)

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

机器之心报道编辑：张倩用来运行 Llama 3 405B 优势明显。最近，Meta 开源了最新的 405B 模型（Llama 3.1 405B），把开源模型的性能拉到了新高度。由于模型...

阅读原文

AIGC动态

2年前 (2024)

万亿token！史上最大多模态数据集诞生

机器之心报道编辑：Panda W开源多模态大模型或将开始腾飞。值此 Llama 3.1 占领各大头条之际，又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多...

阅读原文

AIGC动态

2年前 (2024)

Mistral AI新旗舰模型挑战Llama 3.1！1230亿参数性能直逼GPT-4o

Mistral AI新旗舰模型重磅发布：“幻觉”控制出色。编译|孟强编辑|云鹏智东西7月25日消息，继Meta昨日推出开源Llama3.1模型之后，法国初创AI公司Mistral AI...

阅读原文

AIGC动态

2年前 (2024)

两天内，Meta 和 Mistral 两款主流大模型打擂台！已经不仅卷性能了，谁更便宜就用谁？

来源：AI前线整理：冬梅、核子可乐Mistral 发布开源旗舰模型，参数更小但性能不打折对于前沿人工智能模型领域来说，这两天可谓热闹非凡，AI 科技竞赛正在...

阅读原文

AIGC动态

2年前 (2024)

Mistral新旗舰决战Llama 3.1！最强开源Large 2 123B，扛鼎多语言编程全能王

新智元报道编辑：【新智元导读】紧跟着Meta的重磅发布，Mistral Large 2也带着权重一起上新了，而且参数量仅为Llama 3.1 405B的三分之一。不仅在编码、数学...

阅读原文

AIGC动态

2年前 (2024)

苹果开源7B大模型，训练过程数据集一口气全给了，网友：开放得不像苹果

一水发自凹非寺量子位 | 公众号 QbitAI苹果最新杀入开源大模型战场，而且比其他公司更开放。推出7B模型，不仅效果与Llama 3 8B相当，而且一次性开源了全部...

阅读原文

AIGC动态

2年前 (2024)

权重、代码、数据集全开源，性能超越Mistral-7B，苹果小模型来了

机器之心报道机器之心编辑部小模型成趋势？本周，OpenAI 上线小模型 GPT-4o-mini，小模型赛道正式开卷。近期加入这一赛道的还有苹果。最近，苹果公司作为 D...

阅读原文

AIGC动态

2年前 (2024)

Mamba写代码真的超越Transformer！原始论文入选顶流新会议

西风发自凹非寺量子位 | 公众号 QbitAI“欧洲OpenAI”和“Transformer挑战者”强强联合了！ Mistral AI刚刚推出了其第一个基于Mamba2架构的开源模型——Codestral...

阅读原文

AIGC动态

2年前 (2024)

原作亲自下场！Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

新智元报道编辑：编辑部【新智元导读】最近，7B小模型又成为了AI巨头们竞相追赶的潮流。继谷歌的Gemma2 7B后，Mistral今天又发布了两个7B模型，分别是针对ST...

阅读原文

AIGC动态

2年前 (2024)

Llama3比GPT-4o更爱说谎，首个大模型“诚实性”评估基准来了 | 上海交大

Pengfei Liu 投稿量子位 | 公众号 QbitAI评估大模型是否诚实的基准来了！上海交通大学生成式人工智能实验室（GAIR Lab）推出了一项开创性的评估基准——BeHone...

阅读原文

AIGC动态

2年前 (2024)

大模型时代的蓝海任务，GPT4V准确率不足10%，港科大发布指代理解基准RefCOCO

夕小瑶科技说原创作者 | 谢年年谈到多模态大模型的应用场景，除了生成任务以外，应用最广泛的可能就是在图像和视频中进行目标检测。目标检测要求从图像中识...

阅读原文

AIGC动态

2年前 (2024)

上交举办“大模型奥林匹克竞赛”，GPT-4o仅得39分

夕小瑶科技说原创作者 | 谢年年大模型的奥林匹克竞赛来了！最近，上交构建了一个全面、极具挑战性的奥赛级别的基准——OlympicArena，从来自62个不同奥林匹克...

阅读原文

AIGC动态

2年前 (2024)

1 2 345 6…12