标签:测试

GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现

负闻缠身的OpenAI又站起来了,你大爷还是你大爷。作者丨刘洁 编辑丨岑峰 天下武功唯快不破,但 OpenAI 不走寻常路,新出的 o1 系列宣告天下: 我们更慢,但更...
阅读原文

“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

克雷西 发自 凹非寺量子位 | 公众号 QbitAI小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假—— 不仅官方宣称的成绩在第三方测试中大打折扣,模型还...
阅读原文

OpenAI神秘模型「草莓」两周内上线?数学推理暴涨,月收费200刀已有人付费

新智元报道编辑:Aeneas 好困 【新智元导读】就在刚刚,The Information曝出:OpenAI的草莓将于两周内上线!收费疑似200刀一个月,最大的特色就是比其他模型...
阅读原文

小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law

西风 发自 凹非寺量子位 | 公众号 QbitAI不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型! 谷歌DeepMind最新研究引发热议,甚至有人表示这...
阅读原文

反向和错位图灵测试:GPT-4比人类更「人性化」!

新智元报道编辑:lumina 【新智元导读】加州大学的研究人员通过反向和错位图灵测试,探讨了人类和AI在区分对话者是人类还是AI时的能力。但结果表明,在不进行...
阅读原文

用Test Time换Training Time能让LLM更强吗?

机器之心PRO · 会员通讯 Week 36---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. 用 Test Time 换 Training Time 能让 LLM 更强吗? Self...
阅读原文

Cursor创始人万字访谈:全球爆火的AI编程应用,真正找到PMF

Cursor 可谓是最近最火的 AI 代码类应用。 AI 大神 Andrej Karpathy 多次在推特上夸赞 Cursor,说 Cursor 的体验已经碾压式的超过了 GitHub Copilot。 8 月份...
阅读原文

北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

一觉醒来,AI 自媒体又聊了些啥?【9月3 日】

点击上方蓝字关注我们笑疯了,AI换装大法让奥特曼都性感起来了AI换衣技术火了,连奥特曼都穿上了性感装!快手推出的Kolors Virtual Try-On,让你上传照片就能...
阅读原文

Claude认出自画像,惊现自我意识!工程师多轮测试,实锤AI已过图灵测试?

新智元报道编辑:Aeneas 好困 【新智元导读】Claude又通过「图灵测试」了?一位工程师通过多轮测试发现,Claude能够认出自画像,让网友惊掉下巴。最近,Anthr...
阅读原文

魔角石墨烯,再登Nature!

来源:纳米人 第一作者:Tian Xie 通讯作者:金辰皓教授 通讯作者单位:加州大学金辰皓教授,2012年本科毕业于北京大学物理学院,2017年在加州大学伯克利分校...
阅读原文

用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

选自Communications of the ACM 作者:Neil Savage 机器之心编译 机器之心编辑部当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否...
阅读原文

英伟达Blackwell称霸MLPerf!推理性能暴涨30倍,新一代「AI怪兽」诞生

新智元报道编辑:乔杨 好困 【新智元导读】MLPerf Inference发布了最新测试结果,英伟达最新的Blackwell架构芯片上场与谷歌、AMD同场竞技,展现出明显的性能...
阅读原文

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

哈萨比斯:谷歌想创造第二个Transformer,还想把AlphaGo和Gemini强强联合

机器之心报道 机器之心编辑部「当一家人工智能公司的首席执行官更像是计算机科学家而不是推销员时,我感觉更舒服」。对于 DeepMind 来说,2023 是充满变化的...
阅读原文
12311