AI项目和框架
Generative Omnimatte:创新视频分解技术实现精准图像分离与增强
Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术,能将视频智能分解为多个透明背景的RGBA图层,每个图层对应一个物体及其相关效果(如阴...
Open Materials 2024:Meta推出创新开放数据集与预训练模型助力AI发展
Open Materials 2024 (OMat24) 是Meta推出的包含超过1.1亿个结构的密度泛函理论(DFT)计算的大型开放数据集,专注于无机材料的结构和成分多样性。附带预训练的...
Diffusion Self-Distillation:斯坦福大学创新零样本定制图像生成技术助力个性化创作
Diffusion Self-Distillation(DSD)是创新的零样本定制图像生成技术,用预训练的文本到图像扩散模型自动生成数据集,并将其微调为能进行文本条件的图像到图...
Talker-Reasoner:双思维AI代理架构:智能决策与自我学习的完美结合
Talker-Reasoner是谷歌DeepMind推出的AI代理架构,借鉴人类的认知理论,将代理分为两个模块:Talker和Reasoner。Talker模拟人类的快速直觉思维(System 1),...
Devika:智能编程助手助你轻松实现复杂指令的自动化执行
Devika是开源的AI编程助手,能理解并拆分复杂指令,基于集成AI搜索和网页浏览能力搜集信息,编写代码实现目标。Devika支持多种AI模型,具备高级规划推理能力...
EMOVA:华为诺亚方舟多模态处理模型全面提升智能交互与应用效率
EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、...
OminiControl:智能图像生成框架实现主题与空间精确控制的创新解决方案
OminiControl是高度通用且参数高效的图像生成框架,为扩散变换器模型如FLUX.1设计,实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和空间控制...
Promptriever:智能家居助手提升生活质量的五大关键特点
Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型,能像语言模型一样接受自然语言提示,用直观的方式响应用户的搜索需求。Promptriever...
LongLLaVA:多模态上下文混合架构大语言模型的创新应用与特点解析
LongLLaVA是多模态大型语言模型(MLLM),基于混合架构结合Mamba和Transformer模块,能高效处理大量图像,特别擅长视频理解和高分辨率图像分析。LongLLaVA在...
Devika AI:智能AI助手助力高效执行复杂任务
Devika AI是印度Stition AI团队推出的开源AI软件开发工具,能理解并执行复杂的人类指令,将其分解为步骤,进行研究和信息搜集,最终编写代码以实现目标。Devi...
iDP3:革新3D视觉策略提升视觉体验与精准度
iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的3D视觉运动策略,能提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,i...
Proactive Agent:新一代主动式智能Agent交互体验重塑您的数字生活
Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式 ,具备主动性,能预测用户需求并在没有直接指令的情况下采取行动。Proactive Ag...
ShowUI:新加坡国立与微软合作推出视觉语言操作模型实现高效GUI自动化
ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本...
NVLM:英伟达推出的多模态大型语言模型赋能跨领域智能交互与应用
NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹...
SAM 2.1:Meta开源的先进视觉分割模型提升图像处理精度与效率
SAM 2.1(全称Segment Anything Model 2.1)是Meta(Facebook的母公司)推出的先进视觉分割模型,用于图像和视频。基于简单的Transformer架构和流式记忆设计...