标签:多模态学习

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

什么是视觉语言模型(Vision-Language Models, VLMs)

视觉语言模型(Vision-Language Models, VLMs)是一种多模态人工智能系统,它结合了图像和文本的处理能力,以执行高级视觉语言任务,如视觉问答(Visual Ques...
阅读原文

行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024

原标题:行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024 文章来源:新智元 内容字数:7928字Transformer在目标重识别 (Re-ID) ...
阅读原文

揭开未来之门:Llama2024年度亮点全解析

原标题:Llama2024年度要点总结 文章来源:人工智能学家 内容字数:7315字2024年Llama项目进展概述 随着2024年的结束,Llama项目在全球范围内取得了显著的进...
阅读原文

跨越边界:解密多模态大模型的对齐策略与创新潜力

探索不同的对齐方法对MLLMs性能的影响~
阅读原文

解锁复杂数学推理的秘密:通过多模态慢思考逐步拆解原子步骤

该方法在解决问题的每一步都始终保持着较高的推理质量。
阅读原文

SmolVLM:轻量级视觉语言模型助力多模态任务的高效解决方案

SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同...
阅读原文

StableV2V:中国科技大学开源视频编辑工具实现高效创作与多功能协作

StableV2V是中国科技大学推出的开源视频编辑项目,基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用形状一致的编辑范式,基于三个主要组件...
阅读原文

RAG-Diffusion:区域感知文本到图像生成技术的创新应用与优势分析

RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diff...
阅读原文

什么是多模态深度学习?定义、原因、应用和挑战

多模态深度学习(英文名:Multimodal Deep Learning)是人工智能(AI)的一个子领域,其重点是开发能够同时处理和学习多种类型数据的模型。本文解释了其定义...
阅读原文

IP-Adapter

IP-Adapter(Image Prompt Adapter)是一种专门为预训练的文本到图像扩散模型(如Stable Diffusion)设计的适配器,目的是让文生图模型能够利用图像提示来生...
阅读原文

DiffusionGPT

DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系统,旨在解决文生图领域无法处理不同的输入或者仅限...
阅读原文

DiT

DiT(Diffusion Transformers)是一种新型的扩散模型,由William Peebles(Sora的研发负责人之一) 与纽约大学助理教授谢赛宁提出,结合了去噪扩散概率模型(...
阅读原文

CogVLM2

CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文...
阅读原文
123