kimi推出的 k1 系列强化学习模型

AI工具2年前 (2024)发布 AI工具集

产品名称：k1 视觉思考模型
产品简介：k1 视觉思考模型是kimi推出的k1系列强化学习AI模型，原生支持端到端图像理解和思维链技术，将能力扩展到数学之外的更多基础科学领域。k1模型在图像理解、数学、物理、化学等学科的基准测试中表现优异，超过全球多个标杆模型（如OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet）。k1 视觉思考模型能直接处理图像信息进行思考得出答案，无需借助外部OCR或视觉模型，提供完整的推理思维链，让用户看到模型思索答案的全过程。
详细介绍：

k1 视觉思考模型是什么

k1 视觉思考模型是kimi推出的k1系列强化学习AI模型，原生支持端到端图像理解和思维链技术，将能力扩展到数学之外的更多基础科学领域。k1模型在图像理解、数学、物理、化学等学科的基准测试中表现优异，超过全球多个标杆模型（如OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet）。k1 视觉思考模型能直接处理图像信息进行思考得出答案，无需借助外部OCR或视觉模型，提供完整的推理思维链，让用户看到模型思索答案的全过程。k1 视觉思考模型基于预训练和强化学习后训练，优化字符识别能力，在 OCRBench 上得到 903 分的当前最好（state-of-the-art）结果，在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9，处于全球领先水平。

同时，Kimi 模型研发团队推出针对基础科学学科的标准化图形测试集Science Vista，涵盖不同难度的数理化图片题目，从分布上与实际用户需求较为匹配。测试集将开放给全行业。

kimi推出的 k1 系列强化学习模型

k1 视觉思考模型的主要功能

端到端图像理解： k1 视觉思考模型能直接处理用户输入的图像信息，进行深入的思考和分析，无需依赖外部的OCR技术或额外的视觉模型。
推理思维链展示：k1 视觉思考模型展示思考过程，即推理思维链（Chain of Thought， CoT），让用户能看到答案，还能看到模型得出答案的逻辑推理过程。
基础科学能力泛化
- 数学能力：新的 k1 视觉思考模型，借助端到端的图像理解能力，解锁包括几何图形题在内更加全面的数学能力。
- 跨学科能力：模型的能力扩展到物理、化学等其他基础科学领域，能理解和解决这些领域的复杂问题。
真实场景适应性：k1视觉思考模型在包含噪声的真实场景下，如照片灰暗、图像模糊、手写字迹干扰等，k1 模型相比OpenAI 和 Anthropic 的视觉语言模型，有更显著的领先优势。
通用问题解决能力：k1视觉思考模型展现出更多通用能力，如解释科学家手稿等，让应用场景更加广泛。

如何使用k1 视觉思考模型

下载或更新应用：确保手机或电脑上安装最新版的Kimi智能助手APP，或者访问Kimi的网页版。
访问Kimi视觉思考版：k1 视觉思考模型已陆续上线最新版「Kimi智能助手」的 Android 和 iPhone 手机APP以及网页( kimi.com）。在最新版手机APP或网页版 Kimi+ 页面找到「Kimi 视觉思考版」。
上传或拍照：用APP或网页版中的拍照功能，直接拍摄想要分析的图像，或从设备中上传已有的图片。
等待分析：提交图像后，k1 视觉思考模型将开始处理图像信息，进行深入的思考和分析。
查看结果和推理过程：Kimi视觉思考版会展示模型的推理思维链（Chain of Thought， CoT），用户能看到模型得出答案的全过程。
交互和反馈：如果需要进一步的解释或有其他问题，与Kimi进行交互，提供反馈或提出新的问题。

kimi推出的 k1 系列强化学习模型