标签:多模态学习
PixVerse V2
PixVerse V2是爱诗科技最新发布的AI视频生成产品,基于Diffusion+Transformer(DiT)架构,提供更长、更一致、更有趣的视频生成体验。引入自研时空注意力机制...
ControlNeXt
ControlNeXt是一种新型的AI图像和视频可控生成框架,由香港中文大学和商汤科技联合开发。采用轻量化控制模块和创新的交叉归一化技术,大幅降低计算资源和训练...
CogView-3-Plus
CogView-3-Plus是智谱AI最新推出的AI文生图模型,采用Transformer架构替代传统UNet,优化了扩散模型的噪声规划。CogView-3-Plus在图像生成方面表现出色,能根...
Video-LLaVA2
Video-LLaVA2是由北京大学ChatLaw课题组研发的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频...
LLaVA-OneVision
LLaVA-OneVision是字节跳动推出开源的多模态AI模型,LLaVA-OneVision通过整合数据、模型和视觉表示的见解,能同时处理单图像、多图像和视频场景下的计算机视...
什么是嵌入式学习(Embedded Learning)
嵌入式学习(Embedded Learning)是一种创新的教育模式,将学习过程无缝地融入到日常工作和活动中。嵌入式学习认为,当学习内容与工作紧密相关时,员工的学习...
什么是嵌入表示(Embedding Representations)
嵌入表示(Embedding Representations)是将实体(如单词、图像或用户)映射到连续的向量空间的过程,这些向量捕捉实体的内在属性和相互关系。在自然语言处理...
cogvlm2-llama3-caption
cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容,自动生成描述视频内容的文本标题或字幕。
CogVideoX-Fun
CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成整合包,提供了更自由的生成条件,支持文字生成视频、图片生成视频以及视频生成视频。工具...
CoCoClip.AI
CocoClip 是一款面向社交媒体内容创作者的 AI 视频创作和编辑平台,专门设计用于制作适合 YouTube Shorts、TikTok 和 Instagram Reels 等平台的短视频。提供...
MIP-Adapter
MIP-Adapter是一种个性化图像生成技术,由阿里巴巴集团推出并开源。基于IP-Adapter模型,进一步扩展其能力,支持同时处理多个参考图像,生成更准确和高质量的...