业界首个超大规模混合 Mamba 推理模型,强推理能力。
一款开源的14B参数量的数学模型,通过强化学习训练,性能卓越。
Steiner 是一个基于合成数据训练的推理模型,旨在探索多种推理路径并自主验证。
CUA 是一种能够通过图形界面与数字世界交互的通用接口。
HOMIE 是一种新型的人形机器人遥操作系统,集成人体运动捕捉与强化学习训练框架,用于实现精准的行走与操作任务。
一个用于强化学习人类反馈训练过程可视化的工具,帮助深度理解与调试。
DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型,无需监督微调即可实现卓越推理能力。
Kimi k1.5 是一个通过强化学习扩展的多模态语言模型,专注于提升推理和逻辑能力。
DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型,适用于文本生成和推理任务。
DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型,专注于数学、代码和推理任务。
NovaSky 是一个专注于代码生成和推理模型优化的人工智能技术平台。
通过强化学习提升大型语言模型在开源软件演变中的推理能力
DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型,专注于推理和对话能力。
DeepSeek-R1-Distill-Qwen-32B 是一款高性能的开源语言模型,适用于多种文本生成任务。
DeepSeek-R1-Distill-Qwen-14B 是一款高性能的文本生成模型,适用于多种推理和生成任务。
一个基于强化学习优化的大型语言模型,专注于数学问题解决能力的提升。
开源的先进语言模型后训练框架
用于强化学习验证的数学问题数据集
通过强化学习微调大型视觉-语言模型作为决策代理
一个尝试复现OpenAI O1模型的编程辅助工具
智谱深度推理模型,擅长数理逻辑和代码推理
基于PRIME方法训练的7B参数语言模型,专为提升推理能力而设计。
Reinforcement Learning Coach是一款强大的Python框架,可以模拟智能体与环境之间的交互,并通过组合不同的构建模块来建模智能体。支持多环境训练,提供多种强化学习算法,收集统计数据并支持高级可视化技术。,Coach官网入口网址
Sparrow是一款信息查询对话代理,通过强化学习和人类反馈训练模型,提供更加有帮助、正确和无害的对话服务。它通过分解对话要求为自然语言规则,并提供支持事实性声明的来源证据,使得代理行为更加可靠和可信。,Deepmind Sparrow AI官网入口网址
rllab是一个用于开发和评估强化学习算法的框架,支持自定义环境的实现和与OpenAI Gym的集成,适用于学术研究和工业应用。,RLLab官网入口网址
Dopamine是一个用于快速原型开发强化学习算法的研究框架,旨在提供一个小型、易于理解的代码库,用户可以自由地尝试各种想法(探索性研究)。,Dopamine官网入口网址
Gym Retro是一个用于游戏强化学习研究的平台,提供了超过1000个游戏的环境,支持泛化研究和多种游戏主机。,Gym Retro官网入口网址
zeroscope_v2_XL官网入口网址,管道标签不在官方列表中
网易机器人aPaaS和PaaS平台,官网入口