图像描述 - OpenI

图像描述

Describe Anything

一个基于深度学习的图像和视频描述模型。

Aya Vision 32B

Aya Vision 32B 是一个支持多语言的视觉语言模型，适用于OCR、图像描述、视觉推理等多种用途。

SmolVLM-500M-Instruct

SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

Aya Vision 8B

8亿参数的多语言视觉语言模型，支持OCR、图像描述、视觉推理等功能

小型高效的视觉语言模型，让资源有限的研究者和开发者也能轻松使用先进的视觉语言功能。

PaliGemma2-3b-pt-448

PaliGemma 2是一个强大的视觉-语言模型，支持多种视觉语言任务。

PaliGemma2-3b-pt-224

PaliGemma 2是一款强大的视觉-语言模型，支持多种语言的图像和文本处理任务。

自动化为网站图片生成描述性文本

InternVL2_5-1B-MPO

多模态大型语言模型，提升视觉和语言的综合理解能力

InternVL2_5-26B-MPO

多模态大型语言模型，提升视觉与语言的交互能力。