图像理解 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

PaddleOCR-VL-1.6

PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型（VLM），是 PaddleOCR-VL 系列的最新升级版本。

阅读原文

AI工具

1周前

Qwen-VLA

Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型，以 Qwen3.5-4B 为视觉语言主干，搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架，将...

阅读原文

AI工具

2周前

UnifoLM-VLA-0

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作（VLA）大模型，基于 Qwen2.5-VL-7B 架构进行持续预训练。

阅读原文

AI工具

4个月前

Qwen3-Max-Thinking

Qwen3-Max-Thinking是阿里最新推出的千问旗舰推理模型，参数量超1万亿，预训练数据达36T Tokens。模型通过测试时扩展机制和强化学习，显著提升推理性能和效率...

阅读原文

AI工具

5个月前

openPangu-VL-7B

openPangu-VL-7B 是华为推出的开源多模态模型，专为昇腾硬件优化。模型结合语言和视觉能力，具备强大的视觉定位和OCR功能，能高效处理图像、文档和视频任务。

阅读原文

AI工具

5个月前

Qianfan-VL

Qianfan-VL是百度智能云千帆推出的面向企业级多模态应用场景的视觉理解大模型。模型包含3B、8B和70B三种尺寸版本，具备出色的通用能力和针对OCR、教育等垂直...

阅读原文

AI工具

9个月前

dots.vlm1

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型（LLM），具备强大的视觉感知...

阅读原文

AI工具

10个月前

Pic Answer

Pic Answer 是 Tech Consolidated Inc. 推出的智能教育应用，通过拍照快速解答学术问题。用户只需拍摄题目或问题的照片，应用会借助先进的人工智能技术，迅速...

阅读原文

AI工具

11个月前

FastVLM

FastVLM是苹果推出的高效的视觉语言模型（VLM），能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器，有效减少视觉token数量，显著...

阅读原文

AI工具

1年前 (2025)

心影大模型

心影大模型是心影随形顶尖AI团队研发的AI大模型，正式通过国家生成式人工智能服务备案。模型专注于游戏领域，深度融合游戏攻略与角色陪伴场景，全面应用于“逗...

阅读原文

AI工具

1年前 (2025)

InternVL

InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型，专注于视觉与语言任务。采用 ViT-MLP-LLM 架构，通过视觉模块（如 InternViT）和语言模块（如...

阅读原文

AI工具

1年前 (2025)

VLM-R1

VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型，通过自然语言指令精确定位图像中的目标物体，如根据描述“图中红色的杯子”找到对应的图像区域。...

阅读原文

AI工具

1年前 (2025)

什么是视觉语言模型（Vision-Language Models, VLMs）

视觉语言模型（Vision-Language Models, VLMs）是一种多模态人工智能系统，它结合了图像和文本的处理能力，以执行高级视觉语言任务，如视觉问答（Visual Ques...

阅读原文

AI百科

1年前 (2024)

CogVLM2

CogVLM2是由智谱AI推出的新一代多模态大模型，在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入，具备强大的文...

阅读原文

AI工具

2年前 (2024)

LLaVA-OneVision

LLaVA-OneVision是字节跳动推出开源的多模态AI模型，LLaVA-OneVision通过整合数据、模型和视觉表示的见解，能同时处理单图像、多图像和视频场景下的计算机视...

阅读原文

AI工具

2年前 (2024)

标签：图像理解