标签:竞技场

GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了

梦晨 发自 凹非寺量子位 | 公众号 QbitAI大模型竞技场规则更新,GPT-4o mini排名立刻雪崩,跌出前10。 新榜单对AI回答的长度和风格等特征做了降权处理,确保...
阅读原文

奥特曼晒“草莓”引热议,神秘新模型现身竞技场,网友第一波实测来了

白交 发自 凹非寺量子位 | 公众号 QbitAIOpenAI神秘新模型,真的藏不住了! 先是有匿名聊天机器人现身lmsys竞技场,声称自己是GPT-4系列模型一部分,吊足了大...
阅读原文

起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气

一水 发自 凹非寺量子位 | 公众号 QbitAI起猛了,GPT-4o被谷歌新模型超越了! 历时一周,超1,2000人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次夺得lmsys...
阅读原文

失联大神李沐B站复更:领读Llama 3.1论文,还多讲了一点AI八卦;大模型竞技场Llama 3.1排名第三

一水 发自 凹非寺量子位 | 公众号 QbitAIAI大神李沐老师时隔1年多,终于回归B站“填坑”经典论文精读系列了! 没错,最新主角儿还是Llama-3.1: 在这个18分钟左...
阅读原文

GPT-4o mini凭什么登顶竞技场?OpenAI刷分秘诀被扒,原来奥特曼早有暗示

明敏 发自 凹非寺量子位 | 公众号 QbitAI为啥GPT-4o mini能登顶大模型竞技场?? 原来是OpenAI会刷分呀。 这两天,lmsys竞技场公布了一份充满争议的榜单。其...
阅读原文

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

克雷西 发自 凹非寺量子位 | 公众号 QbitAI刚刚,GPT-4o mini版迎来“高光时刻”—— 登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude 3.5甩在了身后。 ...
阅读原文

编码数学击败GPT4-Turbo!DeepSeek-Coder-v2登顶竞技场最强开源编码模型

一水 发自 凹非寺量子位 | 公众号 QbitAI就在刚刚,竞技场排名再次刷新: 深度求索DeepSeek-Coder-v2成竞技场最强开源编码模型! 它在Coding Arena中已攀升至...
阅读原文

340B险胜70B,Kimi机器人贴脸“嘲讽”英伟达新开源模型

一水 发自 凹非寺量子位 | 公众号 QbitAI排名超过Llama-3-70B,英伟达Nemotron-4 340B问鼎竞技场最强开源模型! 前两天,英伟达突然开源了其通用大模型Nemotr...
阅读原文

黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10

衡宇 发自 凹非寺量子位 | 公众号 QbitAI龙争虎斗的大模型竞技场,今天突然更新: 国内大模型公司零一万物旗下的Yi-Large千亿参数闭源大模型,跃升总榜第七,...
阅读原文

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

新智元报道编辑:alan 【新智元导读】最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。大模...
阅读原文

新测试基准发布,最强开源Llama 3尴尬了

梦晨 发自 凹非寺量子位 | 公众号 QbitAI如果试题太简单,学霸和学渣都能考90分,拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需...
阅读原文

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI能打得过GPT-4的开源模型出现了! 大模型竞技场最新战报: 1040亿参数开源模型Command R+攀升至第6位,与GPT-4-0314...
阅读原文

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三

丰色 发自 凹非寺量子位 | 公众号 QbitAIClaude 3的竞技场排名终于来了: 短短3天内,20000张投票,将榜单的流量推向空前。 最终,Claude 3最强的“大杯”模型O...
阅读原文