标签:多模态学习

cogvlm2-llama3-caption – 智普AI开源的视频标注模型,生成文本描述

cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容,自动生成描述视频内容的文本标题或字幕。
阅读原文

CogVideoX-Fun – 基于CogVideoX的整合包,支持生成无限长度的视频

CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成整合包,提供了更自由的生成条件,支持文字生成视频、图片生成视频以及视频生成视频。工具...
阅读原文

CoCoClip.AI – AI视频创作和编辑平台,一站式服务短视频创作

CocoClip 是一款面向社交媒体内容创作者的 AI 视频创作和编辑平台,专门设计用于制作适合 YouTube Shorts、TikTok 和 Instagram Reels 等平台的短视频。提供...
阅读原文

MIP-Adapter – 阿里开源多参考图像融合的个性化图像生成技术

MIP-Adapter是一种个性化图像生成技术,由阿里巴巴集团推出并开源。基于IP-Adapter模型,进一步扩展其能力,支持同时处理多个参考图像,生成更准确和高质量的...
阅读原文

OpenR – 伦敦大学联合多所高校推出提升大模型推理能力的框架

OpenR是一个由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合开源的全链条训练框架,旨在提升大型语言模型(LLM)的复...
阅读原文

MoE++ – 昆仑万维和北大联合推出的混合专家架构

MoE++是一种新型的混合专家(Mixture-of-Experts)架构,由昆仑万维2050研究院与北大袁粒团队联合推出。基于引入零计算量专家,即零专家、复制专家和常数专家...
阅读原文

DuoAttention – 提高LLMs处理长上下文推理效率的AI框架

DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言模型(LLMs)在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头,优化模...
阅读原文

DriveDreamer4D – 基于世界模型增强4D驾驶场景重建效果的框架

DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架,基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频,用明确结...
阅读原文

MMBench-Video – 上海AI Lab联合多所高校推出的长视频理解基准测试

MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉...
阅读原文

MotionCLR – AI动作编辑模型,根据文本提示生成相应的动作序列

MotionCLR是基于注意力机制的人体动作生成和编辑模型,能根据文本提示生成动作,支持用户进行交互式编辑,如动作强调、减弱、替换、擦除和风格转移。MotionCL...
阅读原文

灵图AI – AI辅助设计平台,专为美术设计打造快速生成手绘效果图

灵图AI是由厦门灵图科技推出的AI辅助设计平台,专为设计创作人群服务。基于AI算法,提供场景化的高效工具和资源,实现素材生成和设计生产力的提升。平台功能...
阅读原文

Anifusion – AI漫画和动漫图片制作平台,文本描述自动生成漫画页面

Anifusion是在线AI漫画和动漫图片制作平台,通过人工智能技术,让创作者无需绘画技能也能制作出专业级别的漫画和动漫艺术作品。用户只需输入描述性提示,AI能...
阅读原文
12