前OpenAI联创、ChatGPT负责人John Schulman：大模型的升级秘诀

AIGC动态1年前 (2024)发布人工智能学家

513 0 0

前OpenAI联创、ChatGPT负责人John Schulman：大模型的升级秘诀

AIGC动态欢迎阅读

原标题：前OpenAI联创、ChatGPT负责人John Schulman：大模型的升级秘诀
关键字：模型,任务,数据,能力,人类
文章来源：人工智能学家
内容字数：0字

内容摘要：

8月6日，OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职，将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。
近9年前，Schulman在研究生毕业后加入OpenAI，成为创始团队的一员。他是深度强化学习的早期先驱之一，很多人不知道的是，他也是ChatGPT项目的负责人，是他领导了ChatGPT的秘密武器RLHF（人类反馈的强化学习）技术的研究与开发。
在负责ChatGPT之前，他发明了广泛应用的近端策略优化算法（PPO），这实际上也是ChatGPT训练的一部分。他还发明了信任区域策略优化（TRPO），对OpenAI Gym、OpenAI Benchmark以及现代深度学的许多元学习算法作出了重要贡献。值得一提的是，其博士导师是强化学习领域开拓者、加州大学伯克利分校教授Pieter Abbeel。
Schulman兼具研究视野，又有丰富的工程实践基础。从硕士阶段开始，他就开始研究强化学习算法，从数据收集与语言模型的训练与交互，对大模型技术栈的不同部分都有丰富的经验与探索。或许，他是对OpenAI大模型的独门

原文链接：前OpenAI联创、ChatGPT负责人John Schulman：大模型的升级秘诀

联系作者

文章来源：人工智能学家
作者微信：
作者简介：

# AIGC动态 # 人类 # 任务 # 数据 # 模型 # 能力

© 版权声明

文章版权归作者所有，未经允许请勿转载。

蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...