标签:测试

SearchGPT第一波评测来了!响应速度超快还没广告,“OpenAI杀手锏”

克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI这次终于不放卫星了—— 最新发布的SearchGPT,已经有第一波尝鲜者展示了自己的体验。 据做测试的博主介绍,Se...
阅读原文

OpenAI惨遭打脸!SearchGPT官方演示大翻车,源代码竟暴露搜索机制

新智元报道编辑:桃子 乔杨 【新智元导读】OpenAI再次上演了谷歌Bard出糗的一幕,SearchGPT官方震撼演示却被外媒曝出低级错误。另有神通广大的开发者甚至扒出...
阅读原文

人工智能时代,学校的标准化选拔还有效吗?

去年,全球人工智能领域著名华人科学家李飞飞在一次公开演讲中说道:“从我在斯坦福大学任教以来,我一直对大学的招生办公室感到好奇。终于有一天,他们想找我...
阅读原文

专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50

MR-Ben团队 投稿量子位 | 公众号 QbitAI大模型测试能拿高分,实际场景中却表现不佳的问题有解了。 贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让...
阅读原文

Claude更新王炸功能:一键生成、评估、优化提示词!

直播预告 | 7月23日14点,「智猩猩在线研讨会 NVIDIA AI for Science 专场」将开讲,两位专家将分别以《AI 驱动下的新能源材料研究与发现》、《NVIDIA Modulu...
阅读原文

人工智能红队测试为何会出错

一种对抗性的网络安全工具被过度用于保护人工智能安全。2024年2月,OpenAI宣布推出Sora,这是一款令人惊叹的“文本转视频”工具。只需要输入一个提示,Sora就能...
阅读原文

英国剑桥大学开发AI工具,老年痴呆症预测准确率比标准高三倍!

夕小瑶科技说 原创作者 | 21# 近日,剑桥大学心理学系的科学家团队开发了一种AI模型,能够预测患有轻度记忆和思维问题的个体是否以及多快会发展为阿尔茨海默...
阅读原文

短期内用户量 10 倍增长,「用户引导」驱动下的 PLG 实操复盘

「与 99% 的财富 100 强企业」合作的可视化协作平台 Miro 曾在疫情期间快速实现 10 倍用户增长。 Miro 将「协作」视为核心价值,核心功能可以总结为一句话:...
阅读原文

这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试

机器之心报道 机器之心编辑部四大 VLM,竟都在盲人摸象? 让现在最火的 SOTA 模型们(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)数一数两条线有几个交点,...
阅读原文

Claude上新:一键生成、测试和评估prompt,让 prompt 写作零门槛!

文章转载自「机器之心」。 在构建 AI 应用时,prompt 质量对结果有着重大影响。但制作高质量的 prompt 具有挑战性,需要研究者深入了解应用需求,并具备大型...
阅读原文

人人可做提示工程师!Claude上新:一键生成、测试和评估prompt

机器之心报道 编辑:陈陈、小舟不会写 prompt 的看过来。在构建 AI 应用时,prompt 质量对结果有着重大影响。但制作高质量的 prompt 具有挑战性,需要研究者...
阅读原文

又一家技术+产品双杀的大模型创业公司!一款测试,让其WAIC大会展位火爆

夕小瑶科技说 原创作者 | 夕小瑶编辑部最近上海世界人工智能大会(WAIC)现场,一个国风展位前排起了长长的队伍,笔者忍不住好奇,究竟是什么新奇的东西吸引...
阅读原文

学术前沿 | Transformer究竟如何推理?基于样例还是基于规则

来源:北京大学人工智能研究院 导读本文是对发表于ICML 2024的论文Case-based or rule-based: How Do Transformers Do the Math?的解读。文章第一作者为来自...
阅读原文

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

新智元报道编辑:桃子 乔杨 【新智元导读】LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最...
阅读原文

ICML 2024|Transformer究竟如何推理?基于样例还是基于规则

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文
13456713