标签:自我
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
机器之心专栏 机器之心编辑部随着大语言模型(LLMs)在近年来取得显著进展,它们的能力日益增强,进而引发了一个关键的问题:如何确保他们与人类价值观对齐,...
向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」
机器之心专栏 机器之心编辑部「以史为鉴,可以知兴替。」 人类的进步史,可以看作是一个不断吸取过去经验、不断推进能力边界的自我演化过程。在这个过程中,...
UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导
新智元报道编辑:润 【新智元导读】来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专...
Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4
夕小瑶科技说 原创编辑 | 付奶茶 引言:大型语言模型的高效部署挑战在人工智能的发展中,训练大语言模型理解、执行人类发出的指令始终是核心任务。然而,传统...
Llama2击败GPT-4 !| Meta提出自奖励语言模型,实现Llama2超进化!
本文转载自公众号:新智元,编辑:桃子,如需转载请与该公众号联系。【导读】AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法,让Llam...
Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局
新智元报道编辑:桃子 润 【新智元导读】AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法,让Llama2一举击败GPT-4 0613、Claude 2、Ge...
今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜
夕小瑶科技说 原创作者 | 赛博马良本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。 智能体传送门: https://w...
大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
机器之心报道 编辑:泽南、蛋酱人工智能的反馈(AIF)要代替 RLHF 了?大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了...
小鼠能认出镜子里的自己,提示它们具备自我认知能力 | Neuron
图片来源:Pixabay来源:Cell Press12 月 6 日发表于《神经元》(Neuron)的一项新研究显示,看到镜子里的自己时,小鼠也会表现出类似于自我认知的行为。当研...
玩转围棋、国际象棋、扑克,DeepMind推出通用学习算法SoG
机器之心报道编辑:小舟、大盘鸡2016 年 3 月,一场机器人与围棋世界冠军、职业九段棋手李世石展开的围棋人机大战受到全球的高度关注。我们知道,最后的结果...
未来已来:数字科技时代,我们将何去何从?《自我、科技与未来》一书给你答案
自进入21世纪以来,高度发达的前沿科技正在并已经形成一个前所未有的巨大的数智化系统,人类对于科技的认知,发生了颠覆性的改变,尤其是进入人工智能时代,...
微信更新「小绿书」,这次专门为了 ta 们而打造 | Feel Good 周报
真·小绿书Feel Good 导读跨过数字鸿沟,微信做了本实体「小绿书」为了减少用眼压力,他做了款用「自然光」的显示屏把「滤镜」的魅力,延伸到教育上💡是时候重...
LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证
夕小瑶科技说 分享来源 | 机器之心「任何认为自动回归式 LLM 已经接近人类水平的 AI,或者仅仅需要扩大规模就能达到人类水平的人,都必须读一读这个。AR-LLM ...
GPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错
新智元报道编辑:桃子 润【新智元导读】GPT-4根本不知道自己犯错?最新研究发现,LLM在推理任务中,自我纠正后根本无法挽救性能变差,引AI大佬LeCun马库斯围...
DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案
新智元报道编辑:润【新智元导读】DeepMind的研究人员发现,LLM有一个天生的缺陷——在推理过程中无法通过自我纠正获得更好的回复,除非数据集中预设了真值标签...