标签:测试

ChatGPT 大更新! GPT-4 今天开始又变聪明了

ChatGPT 变聪明了就在刚刚,OpenAI 官方宣布,新版 GPT-4 Turbo 今天开始向所有付费 ChatGPT 用户开放。 如果知识库截止时间已经更新为 2024 年 4 月,那说明...
阅读原文

马斯克的Grok在安全测试中垫底,Llama 独占鳌头

点击上方蓝字关注我们“安全研究人员发现,埃隆·马斯克的 Grok AI 聊天机器人在越狱攻击中的安全性最弱,而 Meta 的 Llama 则相对安全。越狱是指规避软件开发...
阅读原文

GPT-5红队测试邮件曝光,最早6月发布?网友在线逼问Altman,数十亿美元超算26年启动

新智元报道编辑:Aeneas 桃子 【新智元导读】今天,陆续有网友晒出OpenAI发给自己的红队邀请邮件,看起来,GPT-5已经进入红队测试了?网友们纷纷展开畅想,对...
阅读原文

华盛顿大学撰文反驳微软,我们无法删除大模型关于哈利波特的记忆

夕小瑶科技说 原创作者 | Tscom引言:探索记忆消除的界限在人工智能的发展过程中,一个引人入胜的议题是机器学习模型是否能够被训练以忘记其曾经学到的信息。...
阅读原文

“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂

克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型长文本能力测试,又有新方法了! 腾讯MLPD实验室,用全新开源的“数星星”方法替代了传统的“大海捞针”测试。 ...
阅读原文

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

梦晨 发自 凹非寺量子位 | 公众号 QbitAI让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打? GitHub上一种你没有见过的船新Benchmark火了。 与ll...
阅读原文

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

新智元报道编辑:编辑部 【新智元导读】JAX在最近的基准测试中的性能已经不声不响地超过了Pytorch和TensorFlow,也许未来会有更多的大模型诞生在这个平台上。...
阅读原文

马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!

作者 | 李忠良、褚杏娟、核子可乐引言:还记得 3 月 18 日,马斯克开源 Grok 的那一刻吗?如今,Grok 1.5 即将登场,其卓越的编码与数学处理能力、更深入的上...
阅读原文

3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们完虐Grok、Llama,还更开放

整理 | 凌敏、核子可乐 世界最强开源大模型又双叒叕易主了! Databricks 推出开源大模型 DBRX 3 月 27 日,美国 AI 初创公司 Databricks 宣布,该公司 Mosaic...
阅读原文

最新爆料!GPT-5已有客户上手体验:性能惊人,或将在夏天发布

新智元报道编辑:润 好困 【新智元导读】外媒曝出,OpenAI已经向客户提供GPT-5的体验版本,红队测试已经在进行当中,最快今年夏天面世!GPT-5真的要来了,已...
阅读原文

全球首个AI程序员当老板!IOI金牌得主全部工作AI掌盘,技术细节报告公开

新智元报道编辑:桃子 【新智元导读】一夜之间,全球首个AI程序员的诞生码农的世界变了天。更让人震惊的是,现在的Devin还成为Cognition AI的首席执行官替身...
阅读原文

微软AI程序员登场,10倍AI工程师真来了?996自主生成代码,性能超GPT-4 30%

新智元报道编辑:桃子润 【新智元导读】全球首个AI程序员Devin诞生之后,让码农纷纷恐慌。没想到,微软同时也整出了一个AI程序员——AutoDev,能够自主生成、执...
阅读原文

首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」

机器之心报道 编辑:杜伟、大盘鸡从编码、编译到调试、验证,AI 智能体能做的事情更多了。这周三,Cognition AI 团队发布的首个 AI 软件工程师 Devin 引爆了 ...
阅读原文

马斯克的星舰又炸了,但这是最成功的一次

SpaceX 又有 学习材料了星舰第三飞,来了! 3 月 14 可能是马斯克的幸运日。 这天是圆周率日、国际数学日、SpaceX 创立 22 年的纪念日,更是星舰第三飞的日子...
阅读原文

OpenAI机器人活了!说话做事太像人,2分半视频震撼世界

OpenAI机器人来了,说话竟然会“结巴”,AI负责人深度拆解背后技术。 作者|云鹏 编辑|李水青 OpenAI大模型加持,Figure机器人再次颠覆了我们的想象! ▲测试员说...
阅读原文
167891013