标签:反馈
加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了
机器之心发布 机器之心编辑部最近,扩散模型(Diffusion Model)在图像生成领域取得了显著的进展,为图像生成和视频生成任务带来了前所未有的发展机遇。尽管...
杨笛一新作:社恐有救了,AI大模型一对一陪聊,帮i人变成e人
机器之心报道 编辑:陈萍、杜伟在社交活动中,大语言模型既可以是你的合作伙伴(partner),也可以成为你的导师(mentor)。在人类的社交活动中,为了更有效...
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
机器之心专栏 机器之心编辑部RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选...
像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍
机器之心专栏 机器之心编辑部除了分数,打出分数背后的理由对于大模型对齐更具价值。现有的大模型对齐方法包括基于示例的监督微调(SFT)和基于分数反馈的强...
北大发表 AI Alignment综述:确保AI与人类价值观一致的四个关键设计原则
夕小瑶科技说 原创作者 | 智商掉了一地、卖萌酱近期让互联网打工人很有共鸣的词莫过于“对齐颗粒度”了,但“对齐(Alignment)”这一概念难道只出现在打工人的交...
LLM巫师,代码预训练是魔杖!UIUC华人团队揭秘代码数据三大好处
新智元报道编辑:LRS 【新智元导读】如果语言模型是巫师,代码预训练就是魔杖!大模型时代的语言模型(LLM)不仅在尺寸上变得更大了,而且训练数据也同时包含...
挥舞起代码语料的魔杖,大模型和智能体将召唤出更强大的能量
机器之心专栏 作者:杨可、刘嘉腾正如瑞斯福兹魔杖缔造了诸如邓布利多在内的历代非凡魔法师的传奇,具有巨大潜能的传统大型语言模型,在经过代码语料的预训练...
热乎的GPTs体验报告:创建专属GPT,不懂代码人的春天来了
机器之心报道编辑:大盘鸡、娄佳琪离 AI 智能体越来越近。如果 OpenAI 的开发者大会是砸向水面的石头,当它结束后,阵阵涟漪正向四面散开。GPT 不仅在集成上...
一个小技巧,显著提升大模型推理能力!加州大学提出MAF多反馈框架
夕小瑶科技说 原创作者 | 谢年年最近,多篇文章,指出大模型在推理任务中似乎没有自我改进的能力。即在无任何外部反馈的情况下无法通过自我纠正的形式来改进...
LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证
夕小瑶科技说 分享来源 | 机器之心「任何认为自动回归式 LLM 已经接近人类水平的 AI,或者仅仅需要扩大规模就能达到人类水平的人,都必须读一读这个。AR-LLM ...
清华新研究解密信息茧房!全新信息动力学理论,登Nature子刊
新智元报道编辑:LRS【新智元导读】推荐系统如果只推荐用户喜欢的内容,会降低活跃用户的信息熵,观点也会逐渐走向极端。新一代信息与智能技术的迅猛发展推动...
RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免
机器之心报道编辑:小舟、陈萍AI 助手经过训练,可以给出人类喜欢的回答,该研究表明,这些 AI 系统通常会产生奉承人类的响应,但这些响应并不完全准确。通过...
论文投稿前先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别
夕小瑶科技说 分享来源 | 量子位GPT-4有能力做论文评审吗?来自斯坦福等大学的研究人员还真测试了一把。他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章,...
论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别
丰色 发自 凹非寺量子位 | 公众号 QbitAIGPT-4有能力做论文评审吗?来自斯坦福等大学的研究人员还真测试了一把。他们丢给GPT-4数千篇来自Nature、ICLR等顶会...
ChatGPT的这项核心技术要被替代了?谷歌提出基于AI反馈的强化学习
大数据文摘出品作者:闫一米编辑:学术君与基于人类反馈的强化学习(RLHF)相媲美的技术,出现了。近日,Google Research 的研究人员提出了基于 AI 反馈的强...