标签:测试

AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安

梦晨 发自 凹非寺量子位 | 公众号 QbitAI坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。 只需要给AI一个隐藏的“草稿纸”,研究人员...
阅读原文

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

新智元报道编辑:庸庸乔杨 【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA...
阅读原文

悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%

克雷西 发自 凹非寺量子位 | 公众号 QbitAIGTP-4o挑战悬赏八百万的超难数据集,实现SOTA! 数据集当中包含了各种类型的图形推理题目,被挑战发起者预言“大模...
阅读原文

【招聘贴】【薪资30-60K】【成都】【蚂蚁金服】【测试开发工程师】

来 成都 蚂蚁金服吗?我可以内推!! 感兴趣,请微信扫以下码进行简历内推。 【地点】:成都,高新区天府四街,蚂蚁C空间。 【岗位】:测试开发工程师(偏AI...
阅读原文

英伟达市值3万亿美元高吗?不高 有了Physical AI会更高

大数据文摘受权转载自头部科技 文丨海天 英伟达的市值疯狂飙升,简直有些丧心病狂! 上周,英伟达市值突破3万亿美元,短短3个月增加1万亿美元。之所以猛增,...
阅读原文

两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

新智元报道编辑:乔杨 好困 【新智元导读】在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发...
阅读原文

《自然》科学期刊:人工智能的心理洞察,比较LLMs和人类的心理理论

将我们定义为人类的核心是心理理论的概念:追踪他人心理状态的能力。 在当今人工智能的研究领域,心理理论(Theory of Mind)的概念已经成为一个热门领域。心...
阅读原文

人工智能在心理测试理论方面胜过人类

STUART BRADFORD 来源:IEEE电气电子工程师学会 心智理论(Theory of Mind,https://www.simplypsychology.org/theory-of-mind.html)——追踪他人心理状态的能...
阅读原文

都白学了!Mistral 的首个“开放”编程模型,精通Python、C等 80+ 语言,用220 亿参数赢了 GPT-4

整理 | 华卫 5 月 29 日,由微软支持、估值 60 亿美元的法国 AI 初创公司 Mistral 发布了其有史以来的第一个用于编码的“开放式”生成式 AI 模型,称为 Codestr...
阅读原文

27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神

新智元报道编辑:编辑部 【新智元导读】一直以来,UC伯克利团队的LMSYS大模型排行榜,深受AI圈欢迎。如今,最有实力的全新大模型排行榜SEAL诞生,得到AI大佬...
阅读原文

每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估

新智元报道编辑:乔杨 【新智元导读】在LLM能力突飞猛进的当下,所有研究者似乎都在关注数据、算力、算法等模型开发的各个方面,但OpenAI研究员Jason Wei最近...
阅读原文

CoT提出者Jason Wei:大模型评估基准的「七宗罪」

机器之心报道 机器之心编辑部Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。在 CV ...
阅读原文

GPT-4被证实具有「人类心智」登Nature!AI比人类更好察觉讽刺和暗示

新智元报道编辑:庸庸 【新智元导读】关于AI是否具有「心智理论」一直存在很多争议。Nature最新研究显示,GPT-4的行为可与人类媲美,甚至能够比人类更好地察...
阅读原文

GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

新智元报道编辑:编辑部 【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-...
阅读原文

GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4

新智元报道编辑:桃子庸庸 【新智元导读】GPT-4通过图灵测试了!UCSD研究团队通过实证研究,人类无法将GPT-4与人类进行区分。而且,有54%的情况下,它被判定...
阅读原文
14567813