多模态学习 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

SAIL-VL2

SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型，专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成，...

阅读原文

AI工具

7个月前

Steamer-I2V

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型，通过将静态图像转化为动态视频，展现出卓越的视觉生成能力。模型在 VBench 国际权威的视频生成评...

阅读原文

AI工具

12个月前

BLIP3-o

BLIP3-o是Salesforce Research等机构推出的创新多模态模型，融合自回归模型的推理和指令遵循能力及扩散模型的强大生成能力。模型基于扩散语义丰富的CLIP图像...

阅读原文

AI工具

12个月前

ViLAMP

ViLAMP（VIdeo-LAnguage Model with Mixed Precision）是蚂蚁集团和中国人民大学联合推出的视觉语言模型，专门用在高效处理长视频内容。基于混合精度策略，对...

阅读原文

AI工具

12个月前

FastVLM

FastVLM是苹果推出的高效的视觉语言模型（VLM），能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器，有效减少视觉token数量，显著...

阅读原文

AI工具

12个月前

ReasonIR-8B

ReasonIR-8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.1-8B 训练，采用双编码器架构，将查询和文档分别编码为嵌入向量，通过余弦相...

阅读原文

AI工具

1年前 (2025)

InternVL

InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型，专注于视觉与语言任务。采用 ViT-MLP-LLM 架构，通过视觉模块（如 InternViT）和语言模块（如...

阅读原文

AI工具

1年前 (2025)

CogView4

CogView4 是智谱推出的开源文生图模型，具有60亿参数，支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一，达到开源文生图模型...

阅读原文

AI工具

1年前 (2025)

VLM-R1

VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型，通过自然语言指令精确定位图像中的目标物体，如根据描述“图中红色的杯子”找到对应的图像区域。...

阅读原文

AI工具

1年前 (2025)

ImageRAG

ImageRAG 是基于检索增强生成（Retrieval-Augmented Generation, RAG）的图像生成技术，通过动态检索相关图像来提升文本到图像（T2I）模型生成罕见或未见概念...

阅读原文

AI工具

1年前 (2025)

LLaVA-Rad

LLaVA-Rad是微软研究院推出的小型多模态模型，专注于临床放射学报告生成。是LLaVA-Med项目的分支，特别是胸部X光（CXR）成像。基于LLaVA-Med的基础架构和训练...

阅读原文

AI工具

1年前 (2025)

智元机器人联合上海AI Lab提出首个具身4D世界模型EnerVerse | 一作黄思渊博士主讲预告

首个具身4D世界模型EnerVerse

阅读原文

AIGC动态

1年前 (2025)

CogView-3-Flash

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型，能根据文本描述生成高审美分数的图像，支持多种分辨率，满足专业领域需求。模型具备创意多样性，基于...

阅读原文

AI工具

1年前 (2025)

MiniRAG

MiniRAG是香港大学推出的新型检索增强型生成（RAG）系统，专为在资源受限的场景下高效部署小型语言模型（SLMs）设计。MiniRAG基于两个关键技术实现这一目标：...

阅读原文

AI工具

1年前 (2025)

够新！够权威！智源研究院发布2025十大AI技术趋势

学习了！

阅读原文

AIGC动态

1年前 (2025)

标签：多模态学习