标签:错误
贾佳亚团队新作:10k数据让大模型数学能力超GPT-4
港中文贾佳亚团队 投稿量子位 | 公众号 QbitAI只要10k数据,就能让大模型的数学成绩增长5.6%。 港中文贾佳亚团队推出了基于推理步骤的大模型优化策略,能够像...
GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开
新智元报道编辑:乔杨 【新智元导读】今天,OpenAI悄悄在博客上发布了一篇新论文——CriticGPT,而这也是前任超级对齐团队的「遗作」之一。CriticGPT同样基于GP...
大模型的高考数学成绩单:及格已经非常好了
机器之心发布 机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。 一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩...
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
一网打尽!深度学习常见问题!
大数据文摘受权转载自算法进阶 1 前言 在传统软件工程中,程序问题(即Bugs)会导致程序崩溃,但开发人员可以通过检查错误来了解原因。 然而,在深度学习中,...
谢尔盖·布林狠批Gemini「搞砸了」!51岁创始人回归,CEO劈柴或将?
新智元报道编辑:编辑部 【新智元导读】近日,隐身幕后多年的谷歌联合创始人谢尔盖·布林现身AGI House,对于Gemini的近况向公众作出解释,网友纷纷猜测,这是...
陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好
新智元报道编辑:alan 【新智元导读】在软件工程顶会ESEC/FSE上,来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员发表了新的成果,...
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
机器之心专栏 机器之心编辑部近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和...
就像Word中的文本自动更正一样,大语言模型自动更正化学工艺流程图
将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑| 紫罗过程工程是化学、物理、生物过程的设计、运行、控制、优化与强化。涉及大量的工业领...
C++ 之父 Bjarne Stroustrup:我会为全球数十亿行 C++ 代码带来一个崭新的解决方案
作者|David Cassel 译者 | 王强 策划 | Tina 在 CppCon C++ 会议上,这位 C++ 的创建人明确了该编程语言中迫切需要的安全措施具体都有哪些。 Bjarne Stroust...
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了
机器之心报道编辑:Panda目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们...
LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术
新智元报道编辑:拉燕【新智元导读】谷歌DeepMind全新提示技术「Step-Back Prompting」,让LLM性能拉满!前段时间,谷歌DeepMind提出了一种全新的「Step-Back...
谷歌:LLM找不到推理错误,但能纠正它
机器之心报道编辑:PandaLLM 找不到推理错误,但却能纠正错误!今年,大型语言模型(LLM)成为 AI 领域关注的焦点。LLM 在各种自然语言处理(NLP)任务上取得...
GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升
机器之心报道编辑:蛋酱、杜伟从错误中学习,不只是人类可以做到。近日有研究发现,大模型其实也可以借鉴这种思路。这段时间,大语言模型在各种 NLP 任务中取...
GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
新智元报道编辑:LRS 好困【新智元导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉错误和语言幻觉。GPT-4被吹的神乎其神...