标签:多模态学习
什么是嵌入式学习(Embedded Learning)
嵌入式学习(Embedded Learning)是一种创新的教育模式,将学习过程无缝地融入到日常工作和活动中。嵌入式学习认为,当学习内容与工作紧密相关时,员工的学习...
什么是嵌入表示(Embedding Representations)
嵌入表示(Embedding Representations)是将实体(如单词、图像或用户)映射到连续的向量空间的过程,这些向量捕捉实体的内在属性和相互关系。在自然语言处理...
cogvlm2-llama3-caption
cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容,自动生成描述视频内容的文本标题或字幕。
CogVideoX-Fun
CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成整合包,提供了更自由的生成条件,支持文字生成视频、图片生成视频以及视频生成视频。工具...
CoCoClip.AI
CocoClip 是一款面向社交媒体内容创作者的 AI 视频创作和编辑平台,专门设计用于制作适合 YouTube Shorts、TikTok 和 Instagram Reels 等平台的短视频。提供...
MIP-Adapter
MIP-Adapter是一种个性化图像生成技术,由阿里巴巴集团推出并开源。基于IP-Adapter模型,进一步扩展其能力,支持同时处理多个参考图像,生成更准确和高质量的...
DuoAttention
DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言模型(LLMs)在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头,优化模...
DriveDreamer4D
DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架,基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频,用明确结...
MMBench-Video
MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉...