标签:强化学习

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

DeepSeek R1爆火后,该如何理解 LLM 中的强化学习算法?

讨论下我们到底该如何理解 LLM 中所涉及到的 RL 算法。
阅读原文

DeepSeek核心论文全译本:DeepSeek-R1:通过强化学习提升大语言模型 (LLM) 的推理能力

原标题:DeepSeek核心论文全译本:DeepSeek-R1:通过强化学习提升大语言模型 (LLM) 的推理能力 文章来源:人工智能学家 内容字数:35544字DeepSeek: 提升大型...
阅读原文

第四届终身学习智能体会议(CoLLAs)主题征稿中

​CoLLAs 2025 即将开办,入选论文将发表在《机器学习研究会议录》(PMLR),诚邀 AI、机器学习等相关领域研究人员投稿!
阅读原文

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

原标题:超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈 文章来源:新智元 内容字数:4026字艾伦人工智能研究所发布全新开源大模型Tülu 3 40...
阅读原文

o1开启LLM新范式,Ai2科学家解析背后秘籍:推理和强化学习是关键

原标题:o1开启LLM新范式,Ai2科学家解析背后秘籍:推理和强化学习是关键 文章来源:新智元 内容字数:9725字语言模型推理现状及OpenAI o1模型解读 本文总结...
阅读原文

张俊林:MCST树搜索会是复刻OpenAI O1/O3的有效方法吗

本文介绍R1和K1.5以及MCST方法的主要思路。
阅读原文

UC伯克利等提出具身智能「动作Tokenizer」,效率飙升5倍!

原标题:UC伯克利等提出具身智能「动作Tokenizer」,效率飙升5倍! 文章来源:新智元 内容字数:4818字高效训练机器人Transformer:FAST动作Tokenizer的突破 ...
阅读原文

DeepSeek-R1开源模型爆火:性能比肩GPT-4,强化学习飞轮效应显著

原标题:DeepSeek-R1开源模型爆火:性能比肩GPT-4,强化学习飞轮效应显著 文章来源:小夏聊AIGC 内容字数:3593字DeepSeek-R1:中国开源AI的惊艳亮相 近日,...
阅读原文

图灵奖得主杨立昆最新万字实录:我们离真正的Agent还差几大关键技术

原标题:图灵奖得主杨立昆最新万字实录:我们离真正的Agent还差几大关键技术 文章来源:人工智能学家 内容字数:16553字Meta首席AI科学家杨立昆在CES 2025对...
阅读原文

复旦大学51页的论文,从强化学习的角度分析实现o1的路线图

原标题:复旦大学51页的论文,从强化学习的角度分析实现o1的路线图 文章来源:人工智能学家 内容字数:13621字欧米伽未来研究所:解读复旦大学关于O1模型的突...
阅读原文
123