标签:多模态学习
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
StableV2V:中国科技大学开源视频编辑工具实现高效创作与多功能协作
StableV2V是中国科技大学推出的开源视频编辑项目,基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用形状一致的编辑范式,基于三个主要组件...
RAG-Diffusion:区域感知文本到图像生成技术的创新应用与优势分析
RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diff...
什么是多模态深度学习?定义、原因、应用和挑战
多模态深度学习(英文名:Multimodal Deep Learning)是人工智能(AI)的一个子领域,其重点是开发能够同时处理和学习多种类型数据的模型。本文解释了其定义...
IP-Adapter
IP-Adapter(Image Prompt Adapter)是一种专门为预训练的文本到图像扩散模型(如Stable Diffusion)设计的适配器,目的是让文生图模型能够利用图像提示来生...
DiffusionGPT
DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系统,旨在解决文生图领域无法处理不同的输入或者仅限...
PixVerse V2
PixVerse V2是爱诗科技最新发布的AI视频生成产品,基于Diffusion+Transformer(DiT)架构,提供更长、更一致、更有趣的视频生成体验。引入自研时空注意力机制...
ControlNeXt
ControlNeXt是一种新型的AI图像和视频可控生成框架,由香港中文大学和商汤科技联合开发。采用轻量化控制模块和创新的交叉归一化技术,大幅降低计算资源和训练...
CogView-3-Plus
CogView-3-Plus是智谱AI最新推出的AI文生图模型,采用Transformer架构替代传统UNet,优化了扩散模型的噪声规划。CogView-3-Plus在图像生成方面表现出色,能根...
Video-LLaVA2
Video-LLaVA2是由北京大学ChatLaw课题组研发的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频...
LLaVA-OneVision
LLaVA-OneVision是字节跳动推出开源的多模态AI模型,LLaVA-OneVision通过整合数据、模型和视觉表示的见解,能同时处理单图像、多图像和视频场景下的计算机视...
12