标签:测试
英国剑桥大学开发AI工具,老年痴呆症预测准确率比标准高三倍!
夕小瑶科技说 原创作者 | 21# 近日,剑桥大学心理学系的科学家团队开发了一种AI模型,能够预测患有轻度记忆和思维问题的个体是否以及多快会发展为阿尔茨海默...
短期内用户量 10 倍增长,「用户引导」驱动下的 PLG 实操复盘
「与 99% 的财富 100 强企业」合作的可视化协作平台 Miro 曾在疫情期间快速实现 10 倍用户增长。 Miro 将「协作」视为核心价值,核心功能可以总结为一句话:...
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试
机器之心报道 机器之心编辑部四大 VLM,竟都在盲人摸象? 让现在最火的 SOTA 模型们(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)数一数两条线有几个交点,...
Claude上新:一键生成、测试和评估prompt,让 prompt 写作零门槛!
文章转载自「机器之心」。 在构建 AI 应用时,prompt 质量对结果有着重大影响。但制作高质量的 prompt 具有挑战性,需要研究者深入了解应用需求,并具备大型...
人人可做提示工程师!Claude上新:一键生成、测试和评估prompt
机器之心报道 编辑:陈陈、小舟不会写 prompt 的看过来。在构建 AI 应用时,prompt 质量对结果有着重大影响。但制作高质量的 prompt 具有挑战性,需要研究者...
又一家技术+产品双杀的大模型创业公司!一款测试,让其WAIC大会展位火爆
夕小瑶科技说 原创作者 | 夕小瑶编辑部最近上海世界人工智能大会(WAIC)现场,一个国风展位前排起了长长的队伍,笔者忍不住好奇,究竟是什么新奇的东西吸引...
学术前沿 | Transformer究竟如何推理?基于样例还是基于规则
来源:北京大学人工智能研究院 导读本文是对发表于ICML 2024的论文Case-based or rule-based: How Do Transformers Do the Math?的解读。文章第一作者为来自...
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
新智元报道编辑:桃子 乔杨 【新智元导读】LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最...
ICML 2024|Transformer究竟如何推理?基于样例还是基于规则
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
产品复盘:从「文风测试」到「 OC 分析」,AI产品一波流也有春天
过去 2 周,在 AI 技术圈极少有人知晓的情况下,一个叫做「文风测试」的小网站已经红透了半个社交网络。 文风测试是一个非常简单的网站,你复制你写的文字进...
OpenAI宣布全面封禁中国API接入,开发者们慌了
夕小瑶科技说 原创作者 | 付奶茶近日,陆陆续续有开发者、用户收到了OpenAI的官方通告,称将从7月9日开始,正式严格禁止部分国家/地区的API调用,其中包括中...
今日arXiv最热大模型论文:大模型对齐告别微调,直接编辑表征空间即可解决
夕小瑶科技说 原创作者 | Richard人工智能技术正在飞速发展,尤其是大语言模型在自然语言处理领域取得了令人瞩目的成就。但同时,我们也面临着如何让语言模型...
为什么都放弃了LangChain?
机器之心报道 机器之心编辑部或许从诞生那天起,LangChain 就注定是一个口碑两极分化的产品。 看好 LangChain 的人欣赏它丰富的工具和组建和易于集成等特点,...
AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安
梦晨 发自 凹非寺量子位 | 公众号 QbitAI坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。 只需要给AI一个隐藏的“草稿纸”,研究人员...
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
新智元报道编辑:庸庸乔杨 【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA...