标签：强化学习算法

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

2年前 (2024)

ArenaRL

ArenaRL 是通义 DeepResearch 团队联合高德开源的，面向开放域智能体的对比式强化学习方法。ArenaRL通过引入锦标赛机制，将传统的绝对打分转变为组内相对排序...

7个月前

Long-Cot该如何做之RedStar&Zero-RL的启示

本文主要介绍我们在弱teacher上蒸馏的经验和在zero-rl的一些新的结果和思考。

1年前 (2025)

MiniMax-01技术报告解读以及与DeepSeek-V3对比

本文介绍了 MiniMax-01 系列模型。

2年前 (2025)