标签:测试

Github2.5k星,Karpathy转赞,「流程工程」让LLM代码能力瞬间翻倍,直接淘汰提示工程

新智元报道编辑:润 【新智元导读】Karpathy力推代码生成任务增强流程,让GPT-4在CodeContests从19%提升到44%,不用微调不用新数据集训练,让大模型代码能力...
阅读原文

无人出租车深圳中心区收费载客,硅谷同款,首获资质

允中 发自 凹非寺量子位 | 公众号 QbitAI最新消息,深圳宝安区已向AutoX安途颁发首批智能网联汽车无人商业化试点资质,许可AutoX在宝安中心城区进行无人化Rob...
阅读原文

Mistral-Medium意外泄露?冲上榜单的这个神秘模型让AI社区讨论爆了

机器之心报道 机器之心编辑部「我现在 100% 确信 Miqu 与 Perplexity Labs 上的 Mistral-Medium 是同一个模型。」 近日,一则关于「Mistral-Medium 模型泄露...
阅读原文

大学生智商一代不如一代,最新研究证实“你们是我带过最差的一届”

丰色 明敏 发自凹非寺量子位 | 公众号 QbitAI万万没想到…… 几乎每个老师都说过的“你们是我带过最差的一届”,如今有科学依据了??? 一项来自《心理学前沿》...
阅读原文

混合专家模型Mixtral-8x7B模型挖坑指北

01前言MistralAI很高冷的给开源社区扔了一条磁力链,基于Mixture of Experts的混合专家模型Mixtral-8x7B和指令微调的Mixtral-8x7B-Instruct来了。此前曾爆料G...
阅读原文

一年内完成4轮融资,这家深圳机器人公司做起了扫雪生意|甲子光年

「Yarbo汉阳科技」A轮总融资额达数千万美元。作者|赵健 「甲子光年」独家获悉,消费级智能庭院机器人公司「Yarbo汉阳科技」(下文简称Yarbo),近期完成近千...
阅读原文

用大模型帮程序员找Bug,中科院剖析102篇论文总结出这些方案

中科院王俊杰团队 投稿量子位 | 公众号 QbitAI中科院对“找Bug”下手了,一口气总结了N种方案! 法宝就是大模型。 大模型由于其卓越的自然语言理解、推理等能力...
阅读原文

获广州主驾无人驾驶牌照,AutoX全无人驾驶覆盖北上广深+硅谷

允中 发自 凹非寺量子位 | 公众号 QbitAI2024年1月,量子位获悉,安途AutoX无人化RoboTaxi获批在广州展开可主驾驶位无人的智能网联汽车远程测试工作,范围覆...
阅读原文

GPT-4抽象推理PK人类差距巨大!多模态远不如纯文本,AGI火花难以独立燃烧

新智元报道编辑:Mindy 润 【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法,测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从G...
阅读原文

马斯克“超级高铁”梦碎美国!明星创业公司公告倒闭,成立10年一单没接

梦晨 丰色 发自 凹非寺量子位 | 公众号 QbitAI很突然,“超级高铁”明星公司Hyperloop One宣布即将倒闭,解雇了大部分员工,12月31日彻底结束。 一时间马斯克又...
阅读原文

自己发基准自己第一,Anyscale行为惹社区吐槽

机器之心报道 编辑:蛋酱前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。 第二天就收获 AI 社区的大量吐槽,原因是排行...
阅读原文

CMU权威对比Gemini,GPT-3和Mistral8×7B!GPT-3.5依旧拿捏Gemini,开源模型差距依然不小

新智元报道编辑:山令alan 【新智元导读】谷歌发布Gemini以后,一直宣称Gemini Pro要优于GPT-3.5,而CMU的研究人员通过自己实测,给大家来了一个客观中立第三...
阅读原文

显卡之争!英伟达和AMD下场互掐!GPU霸主地位是否能保?

夕小瑶科技说 原创作者 | 王二狗大家好,我是二狗。 英伟达和AMD这两家芯片巨头掐起来啦! 事情的起因是,两周前AMD董事会主席兼CEO苏姿丰在一场活动中发布了...
阅读原文

摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo

机器之心报道 机器之心编辑部谷歌的 Gemini 到底几斤几两?和 OpenAI 的 GPT 模型相比表现如何?CMU 这篇论文测明白了。前段时间,谷歌发布了对标 OpenAI GPT...
阅读原文

ChatGPT变懒原因:正在给自己放寒假!已被网友测出🧐

西风 发自 凹非寺量子位 | 公众号 QbitAIChatGPT近期偷懒严重,有了一种听起来很离谱的解释:模仿人类,自己给自己放寒假了~有测试为证,网友@Rob Lynch用GT...
阅读原文
18910111213