标签:测试

朱松纯教授团队提出通用人工智能测试评级的标准与平台Tong Test

//人类正在迈入智能时代,其区别于信息时代的显著特征是大量通用智能体的出现,而通用人工智能作为引领和推动智能时代发展的核心科技,是目前及未来国际人工...
阅读原文

最新Claude 200K严重「虚标」?大神壕掷1016美元实测,90K后性能急剧下降

新智元报道编辑:润 好困【新智元导读】月初刚测了GPT-4 Turbo上下文真实实力的大神Greg Kamradt又盯上了Anthropic刚更新的Claude 2.1。他自己花了1016刀测完...
阅读原文

GPT-4不会图形推理?“放水”后准确率依然只有33%

克雷西 发自 凹非寺量子位 | 公众号 QbitAIGPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有3...
阅读原文

GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了

机器之心报道机器之心编辑部GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。最近,一篇题为《On the...
阅读原文

AI「cosplay」关键在人设!复旦、人大等发布大五人格+MBTI测试:特质还原率达82.8%,拒绝OOC

新智元报道编辑:LRS【新智元导读】良好的人设还原度是AI角色扮演的关键,研究人员对大五人格的NEO-FFI问卷和MBTI的16Personalities进行了改写,利用LLM将其...
阅读原文

13B模型全方位碾压GPT-4?这背后有什么猫腻

机器之心报道编辑:陈萍你的测试集信息在训练集中泄漏了吗?一个参数量为 13B 的模型竟然打败了顶流 GPT-4?就像下图所展示的,并且为了确保结果的有效性,这...
阅读原文

恕我直言,大模型对齐可能无法解决安全问题,我们都被表象误导了

夕小瑶科技说 原创作者 | 智商掉了一地、Python是否听说过“伪对齐”这一概念?在大型语言模型(LLM)的评估中,研究者发现了一个引人注目的现象:当面对多项选...
阅读原文

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

梦晨 发自 凹非寺量子位 | 公众号 QbitAI如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期...
阅读原文

GPT-4作弊被抓!吉娃娃or松饼打乱顺序就出错,LeCun:警惕在训练集上测试

梦晨 发自 凹非寺量子位 | 公众号 QbitAIGPT-4解决网络名梗“吉娃娃or蓝莓松饼”,一度惊艳无数人。然鹅,现在它被指出“作弊”了!全用原题中出现的图,只是打乱...
阅读原文

1分钟诞生一个新GPT!3天内定制GPT大爆发,理想型男友、科研利器全网刷屏

新智元报道编辑:桃子润【新智元导读】短短3天,全球迎来了GPT应用大爆发,时代爆款已现雏形。1分钟诞生一个新的GPT!不到一周的时间,各种定制GPT全球大爆发...
阅读原文

老黄H100再破纪录,4分钟训完GPT-3!全新「特供版」H20、L20和L2曝光,性能史诗级缩水

新智元报道编辑:桃子 好困【新智元导读】英伟达H100再次刷榜了,不到4分钟就训完GPT-3,比6月成绩提升3倍。另外,特供版H20、L20和L2性能全都爆出。H100再次...
阅读原文

余承东何小鹏隔空互怼,真的只为了「自动刹车」吗?

人机难共驾不和华为吵架,实在吵不过呀。说这句话的不是别人,正是微博上战斗力最强的车企 CEO 李想。可即便是他,也无法在华为面前,喊出那句著名的「先听我...
阅读原文

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

明敏 发自 凹非寺量子位 | 公众号 QbitAI“别让大模型被基准评估给坑了”。这是一项最新研究的题目,来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄...
阅读原文

英伟达新超级计算机刷新纪录,8天完成ChatGPT训练

点击上方蓝字关注我们“ Nvidia的全新Eos AI超级计算机以前所未有的速度,在短短3.9分钟内完成了具有1750亿参数和10亿标记的GPT-3模型训练,创下了令人瞩目的...
阅读原文

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

丰色 发自 凹非寺量子位 | 公众号 QbitAIGPT-4V挑战视觉错误图,结果令人“大跌眼镜”。像这种判断“哪边颜色更亮”的题,一个没做对:读图片中隐藏信息的也傻傻...
阅读原文
19101112