标签:多模态学习

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

CogView4

CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型...
阅读原文

VLM-R1

VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到对应的图像区域。...
阅读原文

ImageRAG

ImageRAG 是基于检索增强生成(Retrieval-Augmented Generation, RAG)的图像生成技术,通过动态检索相关图像来提升文本到图像(T2I)模型生成罕见或未见概念...
阅读原文

LLaVA-Rad

LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于LLaVA-Med的基础架构和训练...
阅读原文

CogView-3-Flash

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,能根据文本描述生成高审美分数的图像,支持多种分辨率,满足专业领域需求。模型具备创意多样性,基于...
阅读原文

MiniRAG

MiniRAG是香港大学推出的新型检索增强型生成(RAG)系统,专为在资源受限的场景下高效部署小型语言模型(SLMs)设计。MiniRAG基于两个关键技术实现这一目标:...
阅读原文

FlexRAG

FlexRAG 是创新的检索增强生成(RAG)框架,旨在解决传统 RAG 系统在处理长上下文时面临的计算成本高和生成质量不足的问题。通过将检索到的上下文信息压缩成...
阅读原文

什么是视频扩散模型(Video Diffusion Models, VDM)

视频扩散模型(Video Diffusion Models, VDM)是一种结合了变分自编码器(VAE)和扩散模型优势的生成模型。VDM的核心思想是在潜在空间中进行扩散过程,而不是...
阅读原文

田渊栋:2024年年终总结

原标题:田渊栋:2024年年终总结 文章来源:新智元 内容字数:7452字田渊栋2024年AI研究总结及2025年展望 本文总结了田渊栋博士2024年在人工智能领域的研究...
阅读原文

VideoVAE+

VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离压缩机制和文本指导,实现了对大幅运...
阅读原文

什么是视觉语言模型(Vision-Language Models, VLMs)

视觉语言模型(Vision-Language Models, VLMs)是一种多模态人工智能系统,它结合了图像和文本的处理能力,以执行高级视觉语言任务,如视觉问答(Visual Ques...
阅读原文

行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024

原标题:行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024 文章来源:新智元 内容字数:7928字Transformer在目标重识别 (Re-ID) ...
阅读原文
1234