清华大学教授黄民烈：如何把大模型“”成我们放心的样子

AIGC动态1年前 (2024)发布 AI前线

清华大学教授黄民烈：如何把大模型“调教”成我们放心的样子

AIGC动态欢迎阅读

原标题：清华大学教授黄民烈：如何把大模型“”成我们放心的样子
关键字：模型,字节跳动,华为,小米,智能
文章来源：AI前线
内容字数：0字

内容摘要：

作者 | 褚杏娟
OpenAI 安全团队与公司高层的矛盾由来已久，随着首席科学家 Ilya Sutskever 的离职，大模型的安全问题再次成为舆论中心。业内对大模型的安全问题也形成了两派：一派以杨立昆为代表，他们认为对于安全的紧迫感是过度夸张，另一派则是像 Ilya 等人，坚决认为安全问题刻不容缓。
当我们把视线聚焦到国内，国内对大模型安全问题的容忍度其实更低，当然基于文化不通，对于大模型的监管的侧重点也不同。在 6 月 6 日的 CCF 大模型论坛上，清华大学长聘教授黄民烈介绍了自己正在做的研究课题，几乎都是围绕大模型安全问题。
黄民烈教授表示，超级对齐（Superalignment）不仅是安全，本质上应该是怎么样实现自我进化、自我迭代的学习过程，安全问题只是超级对齐的一个外显性质。
超级对齐技术如今面临着挑战，比如处理不准确的奖励模型和弱标签分类问题等。在现有体系里，不可能一下子就把超级对齐系统做出来，但要从解决小的问题开始，才能逐步实现这样的能力。
黄民烈教授介绍道，目前在超级对齐框架下，其研究团队做了精确对齐算法 EXO，确保在理论上有精准的对齐效果。针对大模型攻击，团队做

原文链接：清华大学教授黄民烈：如何把大模型“”成我们放心的样子