一个用于智能设备等的多模态原生代理框架。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
小型高效的视觉语言模型,让资源有限的研究者和开发者也能轻松使用先进的视觉语言功能。
PaliGemma 2是一个强大的视觉-语言模型,支持多种视觉语言任务。
PaliGemma 2是一款强大的视觉-语言模型,支持多种语言的图像和文本处理任务。
多模态12B参数模型,结合视觉编码器处理图像和文本。
先进的多模态理解模型,融合视觉与语言能力。
先进的大型混合专家视觉语言模型
多模态大型语言模型,提升视觉和语言的综合理解能力
多模态大型语言模型,提升视觉与语言的交互能力。