标签:测试
余承东何小鹏隔空互怼,真的只为了「自动刹车」吗?
人机难共驾不和华为吵架,实在吵不过呀。说这句话的不是别人,正是微博上战斗力最强的车企 CEO 李想。可即便是他,也无法在华为面前,喊出那句著名的「先听我...
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
明敏 发自 凹非寺量子位 | 公众号 QbitAI“别让大模型被基准评估给坑了”。这是一项最新研究的题目,来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄...
英伟达新超级计算机刷新纪录,8天完成ChatGPT训练
点击上方蓝字关注我们“ Nvidia的全新Eos AI超级计算机以前所未有的速度,在短短3.9分钟内完成了具有1750亿参数和10亿标记的GPT-3模型训练,创下了令人瞩目的...
大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了
丰色 发自 凹非寺量子位 | 公众号 QbitAIGPT-4V挑战视觉错误图,结果令人“大跌眼镜”。像这种判断“哪边颜色更亮”的题,一个没做对:读图片中隐藏信息的也傻傻...
王者GPT-4已来,32k上下文!OpenAI首届开发者大会最新爆料,全新UI可定制GPT,xAI大模型大范围可用
新智元报道编辑:桃子 润【新智元导读】OpenAI首届开发者大会开启前,ChatGPT各种爆料已出,全新UI界面,人人可定制GPT,将引领「智能体工程师」新职业诞生。...
GPT-4的图灵测试结果出炉!
夕小瑶科技说 原创作者 | 智商掉了一地、ZenMoore图灵测试,作为衡量机器思维能力的方式,自 1950 年由图灵设计以来一直备受争议。这个模仿游戏的设定包括人...
代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞
克雷西 发自 凹非寺量子位 | 公众号 QbitAI一款号称代码能力超越GPT-4的模型,引发了不少网友的关注。准确率比GPT-4高出超过10%,速度却接近GPT-3.5,而且窗...
GPT-4能「伪装」成人类吗?图灵测试结果出炉
机器之心报道编辑:Panda纯文本对话,安能辩我是AI?在测试 AI 时,图灵测试是一个饱受争议但也久负盛名的评估方法,因此总会有研究者不畏繁琐,对新兴的语言...
清华版「AutoGPT」登GitHub热榜!复杂任务轻松搞定,还能自己训练模型
西风 发自 凹非寺量子位 | 公众号 QbitAI清华开源通用智能体XAgent,登上GitHub热榜,狂揽1400+🌟各种任务都能做,让它使用python来分析给定的数据,分分钟搞...
GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」
夕小瑶科技说 原创作者 | 付奶茶、王二狗大离谱!我用GPT-4(V)和DALL·E 3 「混合双打」之下,生成了一张张 牛鲨🐂🦈图,那么问题来了,这到底是牛还是鲨?起因...
ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6
新智元报道编辑:桃子【新智元导读】ChatGPT多模态能力终于可以尝鲜了!这周三,OpenAI刚刚宣布解禁ChatGPT多模态能力。如今,一上线,网友们瞬间玩疯了。接...
对 GPT-4V(ision) 的第一印象
图文|James Gallagher, Piotr Skalski翻译|匡萃彪在这个指南中,我们将分享我们对GPT-4V图像输入功能的第一印象。我们将进行一系列实验,测试GPT-4V的功能...
英伟达新王者登场!GH200超级芯片碾压H100,性能飙升17%!
夕小瑶科技说 分享来源 | 新智元继4月份加入LLM训练测试后,MLPerf再次迎来重磅更新!刚刚,MLCommons发布了MLPerf v3.1版本更新,并加入了两个全新基准:LLM...
ICCV 2023 Oral | 如何在开放世界进行测试段训练?基于动态原型扩展的自训练方法
机器之心报道机器之心编辑部本文首次提出一种针对开放世界的测试段训练方法。提高模型泛化能力是推动基于视觉的感知方法落地的重要基础,测试段训练和适应(T...
碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1,性能跃升17%
新智元报道编辑:编辑部【新智元导读】传说中的英伟达GH200在MLPerf 3.1中惊艳亮相,性能直接碾压H100,领先了17%。继4月份加入LLM训练测试后,MLPerf再次迎...