标签:测试
o1突发内幕曝光?谷歌8月论文已揭示原理,大模型光有软件不存在护城河
明敏 发自 凹非寺量子位 | 公众号 QbitAI发布不到1周,OpenAI最强模型o1的护城河已经没有了。 有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工...
OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?
机器之心报道 编辑:蛋酱、杨文o1消息满天飞。自从 OpenAI 发布了新模型 o1 后,它就承包了 AI 领域近几天的热搜: 有人用门萨智商测试题「拷问」它,竟测得 ...
超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛超越99.8%选手
新智元报道编辑:桃子 乔杨 【新智元导读】OpenAI博士级别的智能,真的实现了!一位UCI物理学博士实测o1,发现自己用时1年完成的博士论文代码,竟被AI在1个小...
GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现
负闻缠身的OpenAI又站起来了,你大爷还是你大爷。作者丨刘洁 编辑丨岑峰 天下武功唯快不破,但 OpenAI 不走寻常路,新出的 o1 系列宣告天下: 我们更慢,但更...
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
克雷西 发自 凹非寺量子位 | 公众号 QbitAI小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假—— 不仅官方宣称的成绩在第三方测试中大打折扣,模型还...
OpenAI神秘模型「草莓」两周内上线?数学推理暴涨,月收费200刀已有人付费
新智元报道编辑:Aeneas 好困 【新智元导读】就在刚刚,The Information曝出:OpenAI的草莓将于两周内上线!收费疑似200刀一个月,最大的特色就是比其他模型...
小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law
西风 发自 凹非寺量子位 | 公众号 QbitAI不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型! 谷歌DeepMind最新研究引发热议,甚至有人表示这...
反向和错位图灵测试:GPT-4比人类更「人性化」!
新智元报道编辑:lumina 【新智元导读】加州大学的研究人员通过反向和错位图灵测试,探讨了人类和AI在区分对话者是人类还是AI时的能力。但结果表明,在不进行...
用Test Time换Training Time能让LLM更强吗?
机器之心PRO · 会员通讯 Week 36---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. 用 Test Time 换 Training Time 能让 LLM 更强吗? Self...
Cursor创始人万字访谈:全球爆火的AI编程应用,真正找到PMF
Cursor 可谓是最近最火的 AI 代码类应用。 AI 大神 Andrej Karpathy 多次在推特上夸赞 Cursor,说 Cursor 的体验已经碾压式的超过了 GitHub Copilot。 8 月份...
北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
一觉醒来,AI 自媒体又聊了些啥?【9月3 日】
点击上方蓝字关注我们笑疯了,AI换装大法让奥特曼都性感起来了AI换衣技术火了,连奥特曼都穿上了性感装!快手推出的Kolors Virtual Try-On,让你上传照片就能...
Claude认出自画像,惊现自我意识!工程师多轮测试,实锤AI已过图灵测试?
新智元报道编辑:Aeneas 好困 【新智元导读】Claude又通过「图灵测试」了?一位工程师通过多轮测试发现,Claude能够认出自画像,让网友惊掉下巴。最近,Anthr...
魔角石墨烯,再登Nature!
来源:纳米人 第一作者:Tian Xie 通讯作者:金辰皓教授 通讯作者单位:加州大学金辰皓教授,2012年本科毕业于北京大学物理学院,2017年在加州大学伯克利分校...
用「图灵测试」检验AI尤其是大语言模型,真的科学吗?
选自Communications of the ACM 作者:Neil Savage 机器之心编译 机器之心编辑部当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否...