标签：测试

13B模型全方位碾压GPT-4？这背后有什么猫腻

机器之心报道编辑：陈萍你的测试集信息在训练集中泄漏了吗？一个参数量为 13B 的模型竟然打败了顶流 GPT-4？就像下图所展示的，并且为了确保结果的有效性，这...

阅读原文

AIGC动态

3年前 (2023)

恕我直言，大模型对齐可能无法解决安全问题，我们都被表象误导了

夕小瑶科技说原创作者 | 智商掉了一地、Python是否听说过“伪对齐”这一概念？在大型语言模型（LLM）的评估中，研究者发现了一个引人注目的现象：当面对多项选...

阅读原文

AIGC动态

3年前 (2023)

一招分辨刷榜作弊大模型，博士小哥开源AI数学“照妖镜”

梦晨发自凹非寺量子位 | 公众号 QbitAI如今很多大模型都声称擅长数学，谁有真才实学？谁是靠背测试题“作弊”的？有人在今年刚刚公布题目的匈牙利全国数学期...

阅读原文

AIGC动态

3年前 (2023)

GPT-4作弊被抓！吉娃娃or松饼打乱顺序就出错，LeCun：警惕在训练集上测试

梦晨发自凹非寺量子位 | 公众号 QbitAIGPT-4解决网络名梗“吉娃娃or蓝莓松饼”，一度惊艳无数人。然鹅，现在它被指出“作弊”了！全用原题中出现的图，只是打乱...

阅读原文

AIGC动态

3年前 (2023)

1分钟诞生一个新GPT！3天内定制GPT大爆发，理想型男友、科研利器全网刷屏

新智元报道编辑：桃子润【新智元导读】短短3天，全球迎来了GPT应用大爆发，时代爆款已现雏形。1分钟诞生一个新的GPT！不到一周的时间，各种定制GPT全球大爆发...

阅读原文

AIGC动态

3年前 (2023)

老黄H100再破纪录，4分钟训完GPT-3！全新「版」H20、L20和L2曝光，性能史诗级缩水

新智元报道编辑：桃子好困【新智元导读】英伟达H100再次刷榜了，不到4分钟就训完GPT-3，比6月成绩提升3倍。另外，特供版H20、L20和L2性能全都爆出。H100再次...

阅读原文

AIGC动态

3年前 (2023)

余承东何小鹏隔空互怼，真的只为了「自动刹车」吗？

人机难共驾不和华为吵架，实在吵不过呀。说这句话的不是别人，正是微博上战斗力最强的车企 CEO 李想。可即便是他，也无法在华为面前，喊出那句著名的「先听我...

阅读原文

AIGC动态

3年前 (2023)

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

明敏发自凹非寺量子位 | 公众号 QbitAI“别让大模型被基准评估给坑了”。这是一项最新研究的题目，来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄...

阅读原文

AIGC动态

3年前 (2023)

英伟达新超级计算机刷新纪录，8天完成ChatGPT训练

点击上方蓝字关注我们“ Nvidia的全新Eos AI超级计算机以前所未有的速度，在短短3.9分钟内完成了具有1750亿参数和10亿标记的GPT-3模型训练，创下了令人瞩目的...

阅读原文

AIGC动态

3年前 (2023)

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

丰色发自凹非寺量子位 | 公众号 QbitAIGPT-4V挑战视觉错误图，结果令人“大跌眼镜”。像这种判断“哪边颜色更亮”的题，一个没做对：读图片中隐藏信息的也傻傻...

阅读原文

AIGC动态

3年前 (2023)

王者GPT-4已来，32k上下文！OpenAI首届开发者大会最新爆料，全新UI可定制GPT，xAI大模型大范围可用

新智元报道编辑：桃子润【新智元导读】OpenAI首届开发者大会开启前，ChatGPT各种爆料已出，全新UI界面，人人可定制GPT，将引领「智能体工程师」新职业诞生。...

阅读原文

AIGC动态

3年前 (2023)

GPT-4的图灵测试结果出炉！

夕小瑶科技说原创作者 | 智商掉了一地、ZenMoore图灵测试，作为衡量机器思维能力的方式，自 1950 年由图灵设计以来一直备受争议。这个模仿游戏的设定包括人...

阅读原文

AIGC动态

3年前 (2023)

代码能力超越GPT-4，这个模型登顶Big Code排行榜，YC创始人点赞

克雷西发自凹非寺量子位 | 公众号 QbitAI一款号称代码能力超越GPT-4的模型，引发了不少网友的关注。准确率比GPT-4高出超过10%，速度却接近GPT-3.5，而且窗...

阅读原文

AIGC动态

3年前 (2023)

GPT-4能「伪装」类吗？图灵测试结果出炉

机器之心报道编辑：Panda纯文本对话，安能辩我是AI？在测试 AI 时，图灵测试是一个饱受争议但也久负盛名的评估方法，因此总会有研究者不畏繁琐，对新兴的语言...

阅读原文

AIGC动态

3年前 (2023)

清华版「AutoGPT」登GitHub热榜！复杂任务轻松搞定，还能自己训练模型

西风发自凹非寺量子位 | 公众号 QbitAI清华开源通用智能体XAgent，登上GitHub热榜，狂揽1400+?各种任务都能做，让它使用python来分析给定的数据，分分钟搞...

阅读原文

AIGC动态

3年前 (2023)

1…10 111213