标签:测试
CoT提出者Jason Wei:大模型评估基准的「」
机器之心报道 机器之心编辑部Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。在 CV ...
GPT-4被证实具有「人类心智」登Nature!AI比人类更好察觉讽刺和暗示
新智元报道编辑:庸庸 【新智元导读】关于AI是否具有「心智理论」一直存在很多争议。Nature最新研究显示,GPT-4的行为可与人类媲美,甚至能够比人类更好地察...
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
新智元报道编辑:编辑部 【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-...
GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
新智元报道编辑:桃子庸庸 【新智元导读】GPT-4通过图灵测试了!UCSD研究团队通过实证研究,人类无法将GPT-4与人类进行区分。而且,有54%的情况下,它被判定...
今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!
夕小瑶科技说 原创作者 | Axe_越你跟分清智能和人类吗? 2015年,在由香港大学主办,以创新创业为主题的Dream Catchers论坛上,腾讯创始人马化腾透露,在创业...
GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊
衡宇 发自 凹非寺量子位 | 公众号 QbitAI好啊,不愧是OpenAI最新旗舰,打开各个社交软件,GPT-4o的上手测试都唰唰唰往我首页推。 请!看! 这,就是用上GPT-4...
OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨
明敏 发自 凹非寺量子位 | 公众号 QbitAIOpenAI正在秘密A/B测试下一代模型,实力超强被怀疑是GPT-4.5或GPT-5。 就在奥特曼当谜语人暗示之后,两款新模型悄悄...
今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!
夕小瑶科技说 原创作者 | Axe_越不知道大家在使用大语言模型(LLM)的时候有没有遇到过,明明一模一样的意思,哪怕只有一两个字不同的指令给到大模型后,都会...
美国高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次
新智元报道编辑:编辑部 【新智元导读】美军战斗机,能由AI完成自主空战了!最近,美国空军部长Kendall亲自试驾了国防部正在研制的X-62A AI飞机。1小时的飞行...
GitHub版Devin上线,会打字就能开发应用,微软CEO:重新定义IDE
克雷西 发自 凹非寺量子位 | 公众号 QbitAI微软的“GitHub版Devin”——Copilot WorkSpace,终于上线了! WorkSpace是一种“Copilot原生”的全新开发环境,目的是让...
国产黑马砸来百万算力福利,Llama 3微调快去冲!H800点击就送,1.99元玩转4090
新智元报道编辑:编辑部 【新智元导读】才短短一周,微调Llama 3变体已经井喷了!去哪里微调Llama 3?这家国产黑马早已上架了推理微调预训练教程,更夸张的是...
微软来大招:手机部署堪比GPT3.5高性能大模型!
夕小瑶科技说 原创作者 | 任同学 上周 LLaMa3 算是把关注度拉爆了,这才过了几天,微软已经宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-...
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试
新智元报道编辑:编辑部 【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。不过,还未上线一天,模型权重和公告全被...
大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五
克雷西 发自 凹非寺量子位 | 公众号 QbitAI关于Llama 3,又有测试结果新鲜出炉—— 大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项...
新测试基准发布,最强开源Llama 3尴尬了
梦晨 发自 凹非寺量子位 | 公众号 QbitAI如果试题太简单,学霸和学渣都能考90分,拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需...