标签:多模态学习

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

什么是多模态深度学习?定义、原因、应用和挑战 – AI百科知识

多模态深度学习(英文名:Multimodal Deep Learning)是人工智能(AI)的一个子领域,其重点是开发能够同时处理和学习多种类型数据的模型。本文解释了其定义...
阅读原文

IP-Adapter – 腾讯开源的文本到图像扩散模型适配器

IP-Adapter(Image Prompt Adapter)是一种专门为预训练的文本到图像扩散模型(如Stable Diffusion)设计的适配器,目的是让文生图模型能够利用图像提示来生...
阅读原文

DiffusionGPT – 开源的大模型驱动的文本到图像生成系统

DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系统,旨在解决文生图领域无法处理不同的输入或者仅限...
阅读原文

DiT – 基于Transfomer架构的扩散模型

DiT(Diffusion Transformers)是一种新型的扩散模型,由William Peebles(Sora的研发负责人之一) 与纽约大学助理教授谢赛宁提出,结合了去噪扩散概率模型(...
阅读原文

CogVLM2 – 智谱AI推出的新一代多模态大模型

CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文...
阅读原文

MOFA-Video – 腾讯开源的可控性AI图生视频模型

MOFA-Video是由腾讯AI实验室和东京大学的研究人员开源的一个可控性的图像生成视频的模型,该技术利用生成运动场适应器对图像进行动画处理以生成视频。
阅读原文

PixVerse V2 – 爱诗科技最新发布的AI视频大模型

PixVerse V2是爱诗科技最新发布的AI视频生成产品,基于Diffusion+Transformer(DiT)架构,提供更长、更一致、更有趣的视频生成体验。引入自研时空注意力机制...
阅读原文

ControlNeXt – AI图像和视频可控生成框架

ControlNeXt是一种新型的AI图像和视频可控生成框架,由香港中文大学和商汤科技联合开发。采用轻量化控制模块和创新的交叉归一化技术,大幅降低计算资源和训练...
阅读原文

CogView-3-Plus – 智谱AI最新推出的AI文生图模型,媲美 MJ-V6 和 FLUX

CogView-3-Plus是智谱AI最新推出的AI文生图模型,采用Transformer架构替代传统UNet,优化了扩散模型的噪声规划。CogView-3-Plus在图像生成方面表现出色,能根...
阅读原文

Video-LLaVA2 – ChatLaw推出的开源多模态智能理解系统

Video-LLaVA2是由北京大学ChatLaw课题组研发的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频...
阅读原文

LLaVA-OneVision – 字节跳动推出的开源多模态AI模型

LLaVA-OneVision是字节跳动推出开源的多模态AI模型,LLaVA-OneVision通过整合数据、模型和视觉表示的见解,能同时处理单图像、多图像和视频场景下的计算机视...
阅读原文

PGTFormer – 先进的AI视频人脸修复框架

PGTFormer是先进的视频人脸修复框架,通过解析引导的时间一致性变换器来恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,基于语义解析选择最...
阅读原文

什么是嵌入式学习(Embedded Learning) – AI百科知识

嵌入式学习(Embedded Learning)是一种创新的教育模式,将学习过程无缝地融入到日常工作和活动中。嵌入式学习认为,当学习内容与工作紧密相关时,员工的学习...
阅读原文

什么是嵌入表示(Embedding Representations) – AI百科知识

嵌入表示(Embedding Representations)是将实体(如单词、图像或用户)映射到连续的向量空间的过程,这些向量捕捉实体的内在属性和相互关系。在自然语言处理...
阅读原文

ImageBind – Meta推出开源多模态AI模型,实现六种多模态数据整合

ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥...
阅读原文
12