标签：多模态学习

基于视觉语言模型的自动驾驶新框架探索｜港中文MMLab在读博士邵昊GADS演讲预告

第四届全球自动驾驶峰会1月14日在北京举办～

阅读原文

AIGC动态

2年前 (2025)

FlexRAG

FlexRAG 是创新的检索增强生成（RAG）框架，旨在解决传统 RAG 系统在处理长上下文时面临的计算成本高和生成质量不足的问题。通过将检索到的上下文信息压缩成...

阅读原文

AI工具

2年前 (2025)

什么是视频扩散模型（Video Diffusion Models, VDM）

视频扩散模型（Video Diffusion Models, VDM）是一种结合了变分自编码器（VAE）和扩散模型优势的生成模型。VDM的核心思想是在潜在空间中进行扩散过程，而不是...

阅读原文

AI百科

2年前 (2025)

田渊栋：2024年年终总结

原标题：田渊栋：2024年年终总结文章来源：新智元内容字数：7452字田渊栋2024年AI研究总结及2025年展望本文总结了田渊栋博士2024年在人工智能领域的研究...

阅读原文

AIGC动态

2年前 (2025)

VideoVAE+

VideoVAE+（VideoVAE Plus）是香港科技大学团队推出的先进的跨模态视频变分自编码器（Video VAE），通过引入新的时空分离压缩机制和文本指导，实现了对大幅运...

阅读原文

AI工具

2年前 (2024)

什么是视觉语言模型（Vision-Language Models, VLMs）

视觉语言模型（Vision-Language Models, VLMs）是一种多模态人工智能系统，它结合了图像和文本的处理能力，以执行高级视觉语言任务，如视觉问答（Visual Ques...

阅读原文

AI百科

2年前 (2024)

行人、车辆、动物等ReID最新综述！武大等全面总结Transformer方法 | IJCV 2024

原标题：行人、车辆、动物等ReID最新综述！武大等全面总结Transformer方法 | IJCV 2024 文章来源：新智元内容字数：7928字Transformer在目标重识别 (Re-ID) ...

阅读原文

AIGC动态

2年前 (2024)

揭开未来之门：Llama2024年度亮点全解析

原标题：Llama2024年度要点总结文章来源：人工智能学家内容字数：7315字2024年Llama项目进展概述随着2024年的结束，Llama项目在全球范围内取得了显著的进...

阅读原文

AIGC动态

2年前 (2024)

DeepSeek 怒抢视觉对话王座！DeepSeek-VL2 发布即开源，技术全公开

原标题：DeepSeek 怒抢视觉对话王座！DeepSeek-VL2 发布即开源，技术全公开文章来源：夕小瑶科技说内容字数：6315字DeepSeek-VL2：国内大模型领域的“拼多多...

阅读原文

AIGC动态

2年前 (2024)

解锁多模态大模型的潜力：OCR VLM的性应用与未来展望

通过VLM范式解决OCR任务的工作~

阅读原文

AIGC动态

2年前 (2024)

跨越边界：解密多模态大模型的对齐策略与创新潜力

探索不同的对齐方法对MLLMs性能的影响~

阅读原文

AIGC动态

2年前 (2024)

解锁复杂数学推理的秘密：通过多模态慢思考逐步拆解原子步骤

该方法在解决问题的每一步都始终保持着较高的推理质量。

阅读原文

AIGC动态

2年前 (2024)

SmolVLM：轻量级视觉语言模型助力多模态任务的高效解决方案

SmolVLM是Hugging Face推出的轻量级视觉语言模型，专为设备端推理设计。以20亿参数量，实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同...

阅读原文

AI工具

2年前 (2024)

StableV2V：中国科技大学开源视频编辑工具实现高效创作与多功能协作

StableV2V是中国科技大学推出的开源视频编辑项目，基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用形状一致的编辑范式，基于三个主要组件...

阅读原文

AI工具

2年前 (2024)

RAG-Diffusion：区域感知文本到图像生成技术的创新应用与优势分析

RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段，实现对图像中各个区域的精确控制和细节优化。RAG-Diff...

阅读原文

AI工具

2年前 (2024)

123 4