标签：多模态学习

ImageBind

ImageBind是Meta公司推出的开源多模态AI模型，将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥...

阅读原文

AI工具

2年前 (2024)

cogvlm2-llama3-caption

cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容，自动生成描述视频内容的文本标题或字幕。

阅读原文

AI工具

2年前 (2024)

CogVideoX-Fun

CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成整合包，提供了更自由的生成条件，支持文字生成视频、图片生成视频以及视频生成视频。工具...

阅读原文

AI工具

2年前 (2024)

CoCoClip.AI

CocoClip 是一款面向社交媒体内容创作者的 AI 视频创作和编辑平台，专门设计用于制作适合 YouTube Shorts、TikTok 和 Instagram Reels 等平台的短视频。提供...

阅读原文

AI工具

2年前 (2024)

MIP-Adapter

MIP-Adapter是一种个性化图像生成技术，由阿里巴巴集团推出并开源。基于IP-Adapter模型，进一步扩展其能力，支持同时处理多个参考图像，生成更准确和高质量的...

阅读原文

AI工具

2年前 (2024)

OpenR

OpenR是一个由伦敦大学学院（UCL）、上海交通大学、利物浦大学、香港科技大学（广州）和西湖大学联合开源的全链条训练框架，旨在提升大型语言模型（LLM）的复...

阅读原文

AI工具

2年前 (2024)

MoE++

MoE++是一种新型的混合专家（Mixture-of-Experts）架构，由昆仑万维2050研究院与北大袁粒团队联合推出。基于引入零计算量专家，即零专家、复制专家和常数专家...

阅读原文

AI工具

2年前 (2024)

DuoAttention

DuoAttention是新型的框架，由MIT韩松团队提出，用在提高大型语言模型（LLMs）在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头，优化模...

阅读原文

AI工具

2年前 (2024)

DriveDreamer4D

DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架，基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频，用明确结...

阅读原文

AI工具

2年前 (2024)

MMBench-Video

MMBench-Video是新颖的长视频多题问答基准测试，是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉...

阅读原文

AI工具

2年前 (2024)

MotionCLR

MotionCLR是基于注意力机制的人体动作生成和编辑模型，能根据文本提示生成动作，支持用户进行交互式编辑，如动作强调、减弱、替换、擦除和风格转移。MotionCL...

阅读原文

AI工具

2年前 (2024)

灵图AI

灵图AI是由厦门灵图科技推出的AI辅助设计平台，专为设计创作人群服务。基于AI算法，提供场景化的高效工具和资源，实现素材生成和设计生产力的提升。平台功能...

阅读原文

AI工具

2年前 (2024)

Anifusion

Anifusion是在线AI漫画和动漫图片制作平台，通过人工智能技术，让创作者无需绘画技能也能制作出专业级别的漫画和动漫艺术作品。用户只需输入描述性提示，AI能...

阅读原文

AI工具

2年前 (2024)

1 2 34