标签:概率

长文 | 大模型偏好对齐全家桶 – RL侧

今天给大家带来一篇Reinforcement Learning from Human Feedback的全家桶,来自知乎@何枝(已授权)。 随着 Llama3 的开源,人们对 Alignment 的重视程度又上...
阅读原文

今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性

夕小瑶科技说 原创作者 | 谢年年 监督微调(Supervised Fine-Tuning, SFT)和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)...
阅读原文

陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替

克雷西 发自 凹非寺量子位 | 公众号 QbitAI比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。 该方式在多项测试中性能都远超DPO,还能让8B...
阅读原文

推特热帖:大语言模型自荐能够替代的20种人类工作!快来看你是否需要转行!

夕小瑶科技说 原创作者 | 付奶茶最近推特上有一个例子引起了广泛的讨论,事情的起因是这样的:网友让 GPT-4o 预测一下自己未来将会替代人类哪些工作? 这听起...
阅读原文

以ACL 2024为例,从投稿到接收:顶会投稿后全流程揭秘

夕小瑶科技说 分享作者 | Erutan Lai来源 | 知乎想必很多同学都会感到好奇,论文投稿之后会经历什么? 写这篇文章,就我所知的,简单科普一下。毕竟没当过大C...
阅读原文

AI足球教练上岗利物浦,射门机会提高13%!来自DeepMind,网友:这不公平

梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI足球教练登上Nature子刊,谷歌DeepMind与利物浦队合作三年打造: 如同AlphaGo颠覆围棋一样,改变了球队制定战术的...
阅读原文

ICLR 2024 | 无需训练,Fast-DetectGPT让文本检测速度提升340倍

机器之心专栏 机器之心编辑部Fast-DetectGPT同时做到了高准确率、高速度、低成本、通用,扫清了实际应用的障碍!大语言模型如 ChatGPT 和 GPT-4 在各个领域对...
阅读原文

长文综述:大脑中的熵、自由能、对称性和动力学|新春特辑

导语我们的大脑在一定程度上是贝叶斯推理系统,生成内部模型对外部世界作出预测,然后将预测与感官输入不断地进行对比,形成预测误差并更新内部模型。2022年...
阅读原文

根据模型输出反转LLM输入提示,让恶意攻击无处可藏

大数据文摘授权转载自将门创投 作者:seven_ 近一段时间以来,工业界和学术界都对大型语言模型(LLM)的内部运行机理进行了深入的研究和探索。这种基础理论研...
阅读原文

RL 究竟是如何与 LLM 做结合的?

直播预告 | 1月17日晚7点,「多模态大模型线上闭门会」正式开讲!阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,携手刘兆洋、李彦玮、文束三位青年学者...
阅读原文

大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉

机器之心报道 编辑:Panda W理论证明!校准的语言模型必然出现幻觉。大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题...
阅读原文

贝叶斯主义的胜利

来源:中国科学院高能物理研究所作者:黄黎原 编辑:单独存在的夸克 撰文: 黄黎原(Lê Nguyên Hoang) 翻译: 方弦导读:贝叶斯定理一旦与算法相结合,...
阅读原文

矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见

新智元报道编辑:桃子 好困【新智元导读】Transformer大模型工作原理究竟是什么样的?一位软件工程师打开了大模型的矩阵世界。黑客帝国中,「矩阵模拟」的世...
阅读原文

大模型的致命缺陷:从GPT到Llama,全都中枪,回答正确率惨不忍睹

夕小瑶科技说 分享来源 | 机器之心大模型的逻辑?不存在的。我让 GPT-3 和 Llama 学会一个简单的知识:A 就是 B,然后反过来问 B 是什么,结果发现 AI 回答的...
阅读原文

大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免

机器之心报道编辑:泽南、陈萍大模型的逻辑?不存在的。我让 GPT-3 和 Llama 学会一个简单的知识:A 就是 B,然后反过来问 B 是什么,结果发现 AI 回答的正确...
阅读原文
12