把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

本文将介绍如何通过偏好对齐来泛化机器人策略。
阅读原文

明天见!智源、字节、凌川科技等大咖齐聚AI Compiler技术沙龙

⏰\x26amp;nbsp;时间:12 月 28 日(周六)13:30-17:45\x0a\x0a📍\x26amp;nbsp;地点:上海五角场创新创业学院 2F 报告厅(杨浦区大学路 322 号)\x0a\x0a📚 内容...
阅读原文

那些被生活压得喘不过气的妈妈们,竟然都找到了同一个帮手

当AI悄然走进三位普通妈妈的生活,用最温柔的方式化解了她们的日常困扰,让平凡的生活多了一些暖心的改变。
阅读原文

问界M9大定突破 20 万台,余承东:对得起那四个字/理想CEO:转型 AI公司,将打造 AI 超跑/曝小米正搭建GPU万卡集群

· OpenAI 服务器再「跳闸」,微软或是罪魁祸首\x0d\x0a· 快手腾讯公布 2025 年员工假期安排\x0d\x0a· EVA 汉堡来袭,还带来「M 号机」
阅读原文

DeepMind最新研究:逆向思维训练LLM可大幅提升AI推理能力

原标题:DeepMind最新研究:逆向思维训练LLM可大幅提升AI推理能力 文章来源:夕小瑶科技说 内容字数:4924字DeepMind 探索逆向思维:赋能大语言模型推理能力 ...
阅读原文

国产开源模型,代码能力比肩 Claude,DeepSeek-V3 正式发布

性能比肩世界顶尖模型,速度跃升,价格更新
阅读原文

什么是奖励模型(Reward Model)

奖励模型是强化学习中的一个核心概念,用于评估智能体在特定状态下的行为表现。在大型语言模型(LLMs)中,奖励模型通过对输入的问题和答案进行评分,指导模...
阅读原文

什么是上下文窗口(Context Window)

上下文窗口指的是在自然语言处理(NLP)任务中,模型在处理一个特定输入时所考虑的上下文信息的范围。具体来说,它决定了模型在生成或理解文本时,可以同时看...
阅读原文

Enhance-A-Video

Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生成增强算法。算法能够显著提升AI视频的生成质量,特别是在...
阅读原文

Valley

Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩,并在OpenCom...
阅读原文

11x

11X是AI 数字员工服务平台,基于构建AI数字员工提升企业效率。数字员工能执行重复性任务,让人类员工专注于战略性的工作。11X的产品包括AI销售代表Alice和AI...
阅读原文

我与vLLM的2024:清华大佬的vLLM开发之路

也许二十年后再回首,我们会发现,现在我们就站在下一个“互联网级奇迹”的起点上。
阅读原文