标签:多模态学习

PGTFormer

PGTFormer是先进的视频人脸修复框架,通过解析引导的时间一致性变换器来恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,基于语义解析选择最...
阅读原文

什么是嵌入式学习(Embedded Learning)

嵌入式学习(Embedded Learning)是一种创新的教育模式,将学习过程无缝地融入到日常工作和活动中。嵌入式学习认为,当学习内容与工作紧密相关时,员工的学习...
阅读原文

什么是嵌入表示(Embedding Representations)

嵌入表示(Embedding Representations)是将实体(如单词、图像或用户)映射到连续的向量空间的过程,这些向量捕捉实体的内在属性和相互关系。在自然语言处理...
阅读原文

ImageBind

ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥...
阅读原文

cogvlm2-llama3-caption

cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容,自动生成描述视频内容的文本标题或字幕。
阅读原文

CogVideoX-Fun

CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成整合包,提供了更自由的生成条件,支持文字生成视频、图片生成视频以及视频生成视频。工具...
阅读原文

CoCoClip.AI

CocoClip 是一款面向社交媒体内容创作者的 AI 视频创作和编辑平台,专门设计用于制作适合 YouTube Shorts、TikTok 和 Instagram Reels 等平台的短视频。提供...
阅读原文

MIP-Adapter

MIP-Adapter是一种个性化图像生成技术,由阿里巴巴集团推出并开源。基于IP-Adapter模型,进一步扩展其能力,支持同时处理多个参考图像,生成更准确和高质量的...
阅读原文

OpenR

OpenR是一个由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合开源的全链条训练框架,旨在提升大型语言模型(LLM)的复...
阅读原文

MoE++

MoE++是一种新型的混合专家(Mixture-of-Experts)架构,由昆仑万维2050研究院与北大袁粒团队联合推出。基于引入零计算量专家,即零专家、复制专家和常数专家...
阅读原文

DuoAttention

DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言模型(LLMs)在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头,优化模...
阅读原文

DriveDreamer4D

DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架,基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频,用明确结...
阅读原文

MMBench-Video

MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉...
阅读原文

MotionCLR

MotionCLR是基于注意力机制的人体动作生成和编辑模型,能根据文本提示生成动作,支持用户进行交互式编辑,如动作强调、减弱、替换、擦除和风格转移。MotionCL...
阅读原文

灵图AI

灵图AI是由厦门灵图科技推出的AI辅助设计平台,专为设计创作人群服务。基于AI算法,提供场景化的高效工具和资源,实现素材生成和设计生产力的提升。平台功能...
阅读原文
1234