标签:测试
OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?
机器之心报道 编辑:张倩、小舟有人说,「我们期待的是草莓,但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。一直以来,大模型的编程能...
刚刚,OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?
整理 | 李冬梅 褚杏娟 大家期待中的 OpenAI 与谷歌“大战”并未如约而至,双方都打出了“毫无杀伤力”的棉花拳。以为能等到“草莓”,没想到来了个“羽衣甘蓝”尽管...
奥特曼秀5颗草莓疯狂暗示GPT-5?匿名新模型神秘现身,数学超强!
新智元报道编辑:桃子 好困 【新智元导读】奥特曼又来搞事情了!一张5颗草莓照片,让全网掀起热议狂澜。这不是明摆着暗示,神秘Strawberry项目真实存在。难道...
跨平台多模态智能体基准测试来了!但全班第一只考了35.26分
新智元报道编辑:alan 好困 【新智元导读】近日,来自CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试,...
Gemini 1.5 Pro发布,赢了榜单第一,却被网友泼冷水
夕小瑶科技说 原创作者 | 海野在被OpenAI背刺这么多次后,谷歌终于长记性了。 没有进行任何预告,谷歌直接端上来了它的大杀器:Gemini 1.5 Pro。 并在Google ...
起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气
一水 发自 凹非寺量子位 | 公众号 QbitAI起猛了,GPT-4o被谷歌新模型超越了! 历时一周,超1,2000人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次夺得lmsys...
谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o
机器之心报道 编辑:陈陈、小舟这么强的模型,谷歌给大家免费试用。近两日,谷歌在不断发布最新研究。继昨日放出最强端侧 Gemma 2 2B 小模型后,刚刚,Gemin...
重磅惊喜!OpenAI突然上线GPT-4o超长输出模型!「Her」高级语音模式已开放测试!
夕小瑶科技说 原创作者 | 海野在最近的大模型战争中,OpenAI似乎很难维持霸主地位。虽然没有具体的数据统计,但Claude3.5出现后,只是看网友们的评论,就能感...
Apple intelligence 正式开启测试!第一波文本工具测试体验来啦!
夕小瑶科技说 原创作者 | 海野Apple Intelligence 开启测试了!苹果带着它的人工智能走进现实了! 但是,坏消息是,目前Apple Intelligence仅支持美国地区使...
SearchGPT第一波评测来了!响应速度超快还没广告,“OpenAI杀手锏”
克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI这次终于不放卫星了—— 最新发布的SearchGPT,已经有第一波尝鲜者展示了自己的体验。 据做测试的博主介绍,Se...
OpenAI惨遭打脸!SearchGPT官方演示大翻车,源代码竟暴露搜索机制
新智元报道编辑:桃子 乔杨 【新智元导读】OpenAI再次上演了谷歌Bard出糗的一幕,SearchGPT官方震撼演示却被外媒曝出低级错误。另有神通广大的开发者甚至扒出...
人工智能时代,学校的标准化选拔还有效吗?
去年,全球人工智能领域著名华人科学家李飞飞在一次公开演讲中说道:“从我在斯坦福大学任教以来,我一直对大学的招生办公室感到好奇。终于有一天,他们想找我...
专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
MR-Ben团队 投稿量子位 | 公众号 QbitAI大模型测试能拿高分,实际场景中却表现不佳的问题有解了。 贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让...
Claude更新王炸功能:一键生成、评估、优化提示词!
直播预告 | 7月23日14点,「智猩猩在线研讨会 NVIDIA AI for Science 专场」将开讲,两位专家将分别以《AI 驱动下的新能源材料研究与发现》、《NVIDIA Modulu...
人工智能红队测试为何会出错
一种对抗性的网络安全工具被过度用于保护人工智能安全。2024年2月,OpenAI宣布推出Sora,这是一款令人惊叹的“文本转视频”工具。只需要输入一个提示,Sora就能...