标签:自我

终于有人把大模型的内部一致性和自反馈讲明白了

夕小瑶科技说 原创作者 | 谷雨龙泽 在LLM的研究中,改进LLMs的推理能力和减少幻觉内容一直是诸多研究者为之献祭GPU和头发的重大问题。近日,中国的一群青年才...
阅读原文

ICML2024: 华中科大发现大模型具有自我认知

夕小瑶科技说 原创作者 | 谢年年不知道大家是否记得之前传到沸沸扬扬的Bing的 Sydney事件。 起因是一位网友晒出了其与Bing的聊天记录,其中Bing自述自己名叫S...
阅读原文

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

新智元报道编辑:LRST 【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成...
阅读原文

麻省理工开发一款AI「时光机器」,穿越未来和60岁自己对话,可显著减轻焦虑

夕小瑶科技说 原创作者 | 付奶茶你有没有想象过这样一个场景,穿越到未来,与未来的自己进行一场对话。 现在借助AI,幻想可以照进现实了。 麻省理工学院(MITI...
阅读原文

人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

大语言模型自进化技术综述:概念框架,进化方向,经验获取,经验更新,评估方法,开放问题

我们翻译整理最新论文:大语言模型自我进化技术综述,文末有论文连接。 大型语言模型(LLMs)在各个领域和智能体应用中取得了显著进展。然而,当前从人类或外...
阅读原文

「用 AI 训 AI」这事靠谱吗?

来源:节选自2024 年 Week04业内通讯在大语言模型领域,微调是改进模型的重要步骤。伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。 2024年初...
阅读原文

MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」

机器之心专栏 机器之心编辑部随着大语言模型(LLMs)在近年来取得显著进展,它们的能力日益增强,进而引发了一个关键的问题:如何确保他们与人类价值观对齐,...
阅读原文

向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」

机器之心专栏 机器之心编辑部「以史为鉴,可以知兴替。」 人类的进步史,可以看作是一个不断吸取过去经验、不断推进能力边界的自我演化过程。在这个过程中,...
阅读原文

UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

新智元报道编辑:润 【新智元导读】来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专...
阅读原文

Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4

夕小瑶科技说 原创编辑 | 付奶茶 引言:大型语言模型的高效部署挑战在人工智能的发展中,训练大语言模型理解、执行人类发出的指令始终是核心任务。然而,传统...
阅读原文

Llama2击败GPT-4 !| Meta提出自奖励语言模型,实现Llama2超进化!

本文转载自公众号:新智元,编辑:桃子,如需转载请与该公众号联系。【导读】AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法,让Llam...
阅读原文

Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

新智元报道编辑:桃子 润 【新智元导读】AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法,让Llama2一举击败GPT-4 0613、Claude 2、Ge...
阅读原文

今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜

夕小瑶科技说 原创作者 | 赛博马良本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。 智能体传送门: https://w...
阅读原文

大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4

机器之心报道 编辑:泽南、蛋酱人工智能的反馈(AIF)要代替 RLHF 了?大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了...
阅读原文
12