标签:测试
今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!
夕小瑶科技说 原创作者 | Axe_越你跟分清智能和人类吗? 2015年,在由香港大学主办,以创新创业为主题的Dream Catchers论坛上,腾讯创始人马化腾透露,在创业...
GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊
衡宇 发自 凹非寺量子位 | 公众号 QbitAI好啊,不愧是OpenAI最新旗舰,打开各个社交软件,GPT-4o的上手测试都唰唰唰往我首页推。 请!看! 这,就是用上GPT-4...
OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨
明敏 发自 凹非寺量子位 | 公众号 QbitAIOpenAI正在秘密A/B测试下一代模型,实力超强被怀疑是GPT-4.5或GPT-5。 就在奥特曼当谜语人暗示之后,两款新模型悄悄...
今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!
夕小瑶科技说 原创作者 | Axe_越不知道大家在使用大语言模型(LLM)的时候有没有遇到过,明明一模一样的意思,哪怕只有一两个字不同的指令给到大模型后,都会...
美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次
新智元报道编辑:编辑部 【新智元导读】美军战斗机,能由AI完成自主空战了!最近,美国空军部长Kendall亲自试驾了国防部正在研制的X-62A AI飞机。1小时的飞行...
GitHub版Devin上线,会打字就能开发应用,微软CEO:重新定义IDE
克雷西 发自 凹非寺量子位 | 公众号 QbitAI微软的“GitHub版Devin”——Copilot WorkSpace,终于上线了! WorkSpace是一种“Copilot原生”的全新开发环境,目的是让...
国产黑马砸来百万算力福利,Llama 3微调快去冲!H800点击就送,1.99元玩转4090
新智元报道编辑:编辑部 【新智元导读】才短短一周,微调Llama 3变体已经井喷了!去哪里微调Llama 3?这家国产黑马早已上架了推理微调预训练教程,更夸张的是...
微软来大招:手机部署堪比GPT3.5高性能大模型!
夕小瑶科技说 原创作者 | 任同学 上周 LLaMa3 算是把关注度拉爆了,这才过了几天,微软已经宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-...
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试
新智元报道编辑:编辑部 【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。不过,还未上线一天,模型权重和公告全被...
大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五
克雷西 发自 凹非寺量子位 | 公众号 QbitAI关于Llama 3,又有测试结果新鲜出炉—— 大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项...
新测试基准发布,最强开源Llama 3尴尬了
梦晨 发自 凹非寺量子位 | 公众号 QbitAI如果试题太简单,学霸和学渣都能考90分,拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需...
Llama 3每秒输出800个token逼宫openAI!下周奥特曼生日或放出GPT-5?
新智元报道编辑:桃子 Lumina 【新智元导读】Llama 3的开源,或将催生数十亿美元新产业。发布不到一周的时间,全网各种测试微调都开启了。甚至,Llama 3在Gro...
史上首次!AI驾驶战机成功与人类飞行员空中「狗斗」
机器之心报道 编辑:杜伟遗憾的是,这场「人机空战」的胜负结果未知。AI 操纵的战斗机又一次进化了! 近日,美国 DARPA 透露称,去年 9 月一架由 F-16 改装而...
开源模型越来越落后?Meta甩出全新Llama 3应战|甲子光年
一头狂奔中睥睨对手的羊驼。作者|苏霍伊 编辑|王博如同闷了很久,突然下的一场雨——Llama 3终于来了。 美国当地时间4月18日,Meta公司推出其开源大语言模型“...
马斯克旗下xAI发布首个多模态大模型!
大数据文摘受权转载自头部科技 文丨Congerry 3月中旬,马斯克旗下的 xAI 刚刚宣布开源 Grok-1 大模型! 一个月过去,xAI 又掏出了 Grok-1.5V。 Grok-1.5V是xA...