标签:测试

北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

一觉醒来,AI 自媒体又聊了些啥?【9月3 日】

点击上方蓝字关注我们笑疯了,AI换装大法让奥特曼都性感起来了AI换衣技术火了,连奥特曼都穿上了性感装!快手推出的Kolors Virtual Try-On,让你上传照片就能...
阅读原文

Claude认出自画像,惊现自我意识!工程师多轮测试,实锤AI已过图灵测试?

新智元报道编辑:Aeneas 好困 【新智元导读】Claude又通过「图灵测试」了?一位工程师通过多轮测试发现,Claude能够认出自画像,让网友惊掉下巴。最近,Anthr...
阅读原文

魔角石墨烯,再登Nature!

来源:纳米人 第一作者:Tian Xie 通讯作者:金辰皓教授 通讯作者单位:加州大学金辰皓教授,2012年本科毕业于北京大学物理学院,2017年在加州大学伯克利分校...
阅读原文

用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

选自Communications of the ACM 作者:Neil Savage 机器之心编译 机器之心编辑部当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否...
阅读原文

英伟达Blackwell称霸MLPerf!推理性能暴涨30倍,新一代「AI怪兽」诞生

新智元报道编辑:乔杨 好困 【新智元导读】MLPerf Inference发布了最新测试结果,英伟达最新的Blackwell架构芯片上场与谷歌、AMD同场竞技,展现出明显的性能...
阅读原文

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

哈萨比斯:谷歌想创造第二个Transformer,还想把AlphaGo和Gemini强强联合

机器之心报道 机器之心编辑部「当一家人工智能公司的首席执行官更像是计算机科学家而不是推销员时,我感觉更舒服」。对于 DeepMind 来说,2023 是充满变化的...
阅读原文

faiss向量数据库测试《三体》全集,这家国产AI加速卡,把性能提了7倍!

引言在人工智能和机器学习技术的飞速发展中,向量数据库在处理高维数据方面扮演着日益重要的角色。近年来,随着大型模型的流行,向量数据库技术也得到了进一...
阅读原文

ChatGPT后,人工智能的终极里程碑却倒了

机器之心报道 编辑:泽南、亚鹂大模型的拟人行为,在让我们产生恐怖谷效应。「图灵测试是一个糟糕的测试标准,因为对话能力和推理完全是两码事。」最近几天,...
阅读原文

谷歌「Her」来啦!发布Gemini Live语音模式,现场演示两次翻车

夕小瑶科技说 原创作者 | 海野重磅惊喜! 今天,在MadeByGoogle发布会上,谷歌公布了 AI语音助手 Gemini Live,对标的正是GPT-4o,而且是两周前开放测试的语...
阅读原文

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

机器之心报道 编辑:张倩、小舟有人说,「我们期待的是草莓,但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。一直以来,大模型的编程能...
阅读原文

刚刚,OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?

整理 | 李冬梅 褚杏娟 大家期待中的 OpenAI 与谷歌“大战”并未如约而至,双方都打出了“毫无杀伤力”的棉花拳。以为能等到“草莓”,没想到来了个“羽衣甘蓝”尽管...
阅读原文

奥特曼秀5颗草莓疯狂暗示GPT-5?匿名新模型神秘现身,数学超强!

新智元报道编辑:桃子 好困 【新智元导读】奥特曼又来搞事情了!一张5颗草莓照片,让全网掀起热议狂澜。这不是明摆着暗示,神秘Strawberry项目真实存在。难道...
阅读原文

跨平台多模态智能体基准测试来了!但全班第一只考了35.26分

新智元报道编辑:alan 好困 【新智元导读】近日,来自CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试,...
阅读原文
1234512