标签:测试
产品复盘:从「文风测试」到「 OC 分析」,AI产品一波流也有春天
过去 2 周,在 AI 技术圈极少有人知晓的情况下,一个叫做「文风测试」的小网站已经红透了半个社交网络。 文风测试是一个非常简单的网站,你复制你写的文字进...
OpenAI宣布全面封禁中国API接入,开发者们慌了
夕小瑶科技说 原创作者 | 付奶茶近日,陆陆续续有开发者、用户收到了OpenAI的官方通告,称将从7月9日开始,正式严格禁止部分国家/地区的API调用,其中包括中...
今日arXiv最热大模型论文:大模型对齐告别微调,直接编辑表征空间即可解决
夕小瑶科技说 原创作者 | Richard人工智能技术正在飞速发展,尤其是大语言模型在自然语言处理领域取得了令人瞩目的成就。但同时,我们也面临着如何让语言模型...
为什么都放弃了LangChain?
机器之心报道 机器之心编辑部或许从诞生那天起,LangChain 就注定是一个口碑两极分化的产品。 看好 LangChain 的人欣赏它丰富的工具和组建和易于集成等特点,...
AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安
梦晨 发自 凹非寺量子位 | 公众号 QbitAI坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。 只需要给AI一个隐藏的“草稿纸”,研究人员...
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
新智元报道编辑:庸庸乔杨 【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA...
悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%
克雷西 发自 凹非寺量子位 | 公众号 QbitAIGTP-4o挑战悬赏八百万的超难数据集,实现SOTA! 数据集当中包含了各种类型的图形推理题目,被挑战发起者预言“大模...
【招聘贴】【薪资30-60K】【成都】【蚂蚁金服】【测试开发工程师】
来 成都 蚂蚁金服吗?我可以内推!! 感兴趣,请微信扫以下码进行简历内推。 【地点】:成都,高新区天府四街,蚂蚁C空间。 【岗位】:测试开发工程师(偏AI...
英伟达市值3万亿美元高吗?不高 有了Physical AI会更高
大数据文摘受权转载自头部科技 文丨海天 英伟达的市值疯狂飙升,简直有些丧心病狂! 上周,英伟达市值突破3万亿美元,短短3个月增加1万亿美元。之所以猛增,...
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
新智元报道编辑:乔杨 好困 【新智元导读】在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发...
《自然》科学期刊:人工智能的心理洞察,比较LLMs和人类的心理理论
将我们定义为人类的核心是心理理论的概念:追踪他人心理状态的能力。 在当今人工智能的研究领域,心理理论(Theory of Mind)的概念已经成为一个热门领域。心...
人工智能在心理测试理论方面胜过人类
STUART BRADFORD 来源:IEEE电气电子工程师学会 心智理论(Theory of Mind,https://www.simplypsychology.org/theory-of-mind.html)——追踪他人心理状态的能...
都白学了!Mistral 的首个“开放”编程模型,精通Python、C等 80+ 语言,用220 亿参数赢了 GPT-4
整理 | 华卫 5 月 29 日,由微软支持、估值 60 亿美元的法国 AI 初创公司 Mistral 发布了其有史以来的第一个用于编码的“开放式”生成式 AI 模型,称为 Codestr...
27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神
新智元报道编辑:编辑部 【新智元导读】一直以来,UC伯克利团队的LMSYS大模型排行榜,深受AI圈欢迎。如今,最有实力的全新大模型排行榜SEAL诞生,得到AI大佬...
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估
新智元报道编辑:乔杨 【新智元导读】在LLM能力突飞猛进的当下,所有研究者似乎都在关注数据、算力、算法等模型开发的各个方面,但OpenAI研究员Jason Wei最近...