强化学习 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

6个月前

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

10个月前

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

手把手教你从头跑通 GRPO

AIGC动态

5个月前

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

复杂奖励函数不是必要的

阅读原文

AIGC动态

6个月前

DeepSeek R1爆火后，该如何理解 LLM 中的强化学习算法？

讨论下我们到底该如何理解 LLM 中所涉及到的 RL 算法。

阅读原文

AIGC动态

6个月前

不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

基于结果奖励的强化学习新范式

阅读原文

AIGC动态

6个月前

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队黑盒

奖励函数很重要

阅读原文

AIGC动态

6个月前

DeepSeek核心论文全译本：DeepSeek-R1：通过强化学习提升大语言模型 (LLM) 的推理能力

原标题：DeepSeek核心论文全译本：DeepSeek-R1：通过强化学习提升大语言模型 (LLM) 的推理能力文章来源：人工智能学家内容字数：35544字DeepSeek: 提升大型...

阅读原文

AIGC动态

6个月前

浙大&通义全面评测智能体复杂任务规划能力，18主流大模型全不及格｜ICLR2025

智能体工作流生成基准WorfBench

阅读原文

AIGC动态

6个月前

第四届终身学习智能体会议（CoLLAs）主题征稿中

CoLLAs 2025 即将开办，入选论文将发表在《机器学习研究会议录》（PMLR），诚邀 AI、机器学习等相关领域研究人员投稿！

阅读原文

AIGC动态

6个月前

超越DeepSeek V3！Ai2再祭开源杀器Tülu 3，强化学习打破性能瓶颈

原标题：超越DeepSeek V3！Ai2再祭开源杀器Tülu 3，强化学习打破性能瓶颈文章来源：新智元内容字数：4026字艾伦人工智能研究所发布全新开源大模型Tülu 3 40...

阅读原文

AIGC动态

6个月前

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

原标题：o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键文章来源：新智元内容字数：9725字语言模型推理现状及OpenAI o1模型解读本文总结...

阅读原文

AIGC动态

6个月前

看DeepSeek R1的论文时，我突然想起了AlphaGo

关于R1的论文发表一些看法~

阅读原文

AIGC动态

6个月前

张俊林：MCST树搜索会是复刻OpenAI O1/O3的有效方法吗

本文介绍R1和K1.5以及MCST方法的主要思路。

阅读原文

AIGC动态

7个月前

UC伯克利等提出具身智能「动作Tokenizer」，效率飙升5倍！

原标题：UC伯克利等提出具身智能「动作Tokenizer」，效率飙升5倍！文章来源：新智元内容字数：4818字高效训练机器人Transformer：FAST动作Tokenizer的突破 ...

阅读原文

AIGC动态

7个月前

DeepSeek-R1开源模型爆火：性能比肩GPT-4，强化学习飞轮效应显著

原标题：DeepSeek-R1开源模型爆火：性能比肩GPT-4，强化学习飞轮效应显著文章来源：小夏聊AIGC 内容字数：3593字DeepSeek-R1：中国开源AI的惊艳亮相近日，...

阅读原文

使用教程

7个月前

揭秘大模型强推理能力幕后功臣“缺陷”，过程级奖励模型新基准来了

PRMs整体表现堪忧，开源不如闭源

阅读原文

AIGC动态

7个月前

标签：强化学习