标签：错误

贾佳亚团队新作：10k数据让大模型数学能力超GPT-4

港中文贾佳亚团队投稿量子位 | 公众号 QbitAI只要10k数据，就能让大模型的数学成绩增长5.6%。港中文贾佳亚团队推出了基于推理步骤的大模型优化策略，能够像...

阅读原文

AIGC动态

2年前 (2024)

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

新智元报道编辑：乔杨【新智元导读】今天，OpenAI悄悄在博客上发布了一篇新论文——CriticGPT，而这也是前任超级对齐团队的「遗作」之一。CriticGPT同样基于GP...

阅读原文

AIGC动态

2年前 (2024)

大模型的高考数学成绩单：及格已经非常好了

机器之心发布机器之心编辑部让考生头皮发麻的高考数学，可难倒了顶尖 AI 大模型。一年一度的高考即将落幕，衷心希望各位考生都超常发挥，考出满意的好成绩...

阅读原文

AIGC动态

2年前 (2024)

ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力，开源框架SymbCoT来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

一网打尽！深度学习常见问题！

大数据文摘受权转载自算法进阶 1 前言在传统软件工程中，程序问题（即Bugs）会导致程序崩溃，但开发人员可以通过检查错误来了解原因。然而，在深度学习中，...

阅读原文

AIGC动态

2年前 (2024)

谢尔盖·布林狠批Gemini「搞砸了」！51岁创始人回归，CEO劈柴或将？

新智元报道编辑：编辑部【新智元导读】近日，隐身幕后多年的谷歌联合创始人谢尔盖·布林现身AGI House，对于Gemini的近况向公众作出解释，网友纷纷猜测，这是...

阅读原文

AIGC动态

2年前 (2024)

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

新智元报道编辑：alan 【新智元导读】在软件工程顶会ESEC/FSE上，来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校（UIUC）的研究人员发表了新的成果，...

阅读原文

AIGC动态

2年前 (2024)

更适合中文LMM体质的基准CMMMU来了：超过30个细分学科，12K专家级题目

机器之心专栏机器之心编辑部近期，随着多模态大模型（LMM）的能力不断进步，评估 LMM 性能的需求也日益增长。与此同时，在中文环境下评估 LMM 的高级知识和...

阅读原文

AIGC动态

2年前 (2024)

就像Word中的文本自动更正一样，大语言模型自动更正化学工艺流程图

将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑| 紫罗过程工程是化学、物理、生物过程的设计、运行、控制、优化与强化。涉及大量的工业领...

阅读原文

AIGC动态

3年前 (2023)

C++ 之父 Bjarne Stroustrup：我会为全球数十亿行 C++ 代码带来一个崭新的解决方案

作者｜David Cassel 译者 | 王强策划 | Tina 在 CppCon C++ 会议上，这位 C++ 的创建人明确了该编程语言中迫切需要的安全措施具体都有哪些。 Bjarne Stroust...

阅读原文

AIGC动态

3年前 (2023)

最强的GPT-4V都考不过？基于大学考试的测试基准MMMU诞生了

机器之心报道编辑：Panda目前最好的大型多模态模型 GPT-4V 与大学生谁更强？我们还不知道，但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们...

阅读原文

AIGC动态

3年前 (2023)

LLM准确率飙升27%！谷歌DeepMind提出全新「后退一步」提示技术

新智元报道编辑：拉燕【新智元导读】谷歌DeepMind全新提示技术「Step-Back Prompting」，让LLM性能拉满！前段时间，谷歌DeepMind提出了一种全新的「Step-Back...

阅读原文

AIGC动态

3年前 (2023)

谷歌：LLM找不到推理错误，但能纠正它

机器之心报道编辑：PandaLLM 找不到推理错误，但却能纠正错误！今年，大型语言模型（LLM）成为 AI 领域关注的焦点。LLM 在各种自然语言处理（NLP）任务上取得...

阅读原文

AIGC动态

3年前 (2023)

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

机器之心报道编辑：蛋酱、杜伟从错误中学习，不只是人类可以做到。近日有研究发现，大模型其实也可以借鉴这种思路。这段时间，大语言模型在各种 NLP 任务中取...

阅读原文

AIGC动态

3年前 (2023)

GPT-4V连小学生都不如？最新基准测试错误率竟高达90%：红绿灯认错、勾股定理也不会

新智元报道编辑：LRS 好困【新智元导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench，全面测试GPT-4V视觉错误和语言幻觉。GPT-4被吹的神乎其神...

阅读原文

AIGC动态

3年前 (2023)

123