AI项目和框架

OminiControl:智能图像生成框架实现主题与空间精确控制的创新解决方案

OminiControl是高度通用且参数高效的图像生成框架,为扩散变换器模型如FLUX.1设计,实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和空间控制...
阅读原文

Promptriever:智能家居助手提升生活质量的五大关键特点

Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型,能像语言模型一样接受自然语言提示,用直观的方式响应用户的搜索需求。Promptriever...
阅读原文

LongLLaVA:多模态上下文混合架构大语言模型的创新应用与特点解析

LongLLaVA是多模态大型语言模型(MLLM),基于混合架构结合Mamba和Transformer模块,能高效处理大量图像,特别擅长视频理解和高分辨率图像分析。LongLLaVA在...
阅读原文

Devika AI:智能AI助手助力高效执行复杂任务

Devika AI是印度Stition AI团队推出的开源AI软件开发工具,能理解并执行复杂的人类指令,将其分解为步骤,进行研究和信息搜集,最终编写代码以实现目标。Devi...
阅读原文

iDP3:革新3D视觉策略提升视觉体验与精准度

iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的3D视觉运动策略,能提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,i...
阅读原文

Proactive Agent:新一代主动式智能Agent交互体验重塑您的数字生活

Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式 ,具备主动性,能预测用户需求并在没有直接指令的情况下采取行动。Proactive Ag...
阅读原文

ShowUI:新加坡国立与微软合作推出视觉语言操作模型实现高效GUI自动化

ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本...
阅读原文

NVLM:英伟达推出的多模态大型语言模型赋能跨领域智能交互与应用

NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹...
阅读原文

SAM 2.1:Meta开源的先进视觉分割模型提升图像处理精度与效率

SAM 2.1(全称Segment Anything Model 2.1)是Meta(Facebook的母公司)推出的先进视觉分割模型,用于图像和视频。基于简单的Transformer架构和流式记忆设计...
阅读原文

Qwen2vl-Flux:多模态图像生成模型赋能创意无限,支持多样化生成模式

Qwen2VL-Flux是多模态图像生成模型,结合Qwen2VL的视觉语言理解和FLUX框架,基于文本提示和图像参考生成高质量的图像。模型支持多种生成模式,包括变体生成、...
阅读原文

Find3D:加州理工学院创新3D部件分割模型提升精确度与效率

Find3D是加州理工学院推出的3D部件分割模型,能根据任意文本查询分割任意对象的任何部分。Find3D用一个强大的数据引擎自动从互联网上的3D资产生成训练数据,...
阅读原文

Sketch2Lineart:将手绘草图瞬间转化为精美线条画的智能工具

Sketch2Lineart是基于人工智能的绘画工具,能将简单的手绘草图转换成清晰的线条画。通过自动生成草图描述并据此绘制线条画,支持调整细节适应不同风格。用户...
阅读原文

Fancy123:创新3D网格生成技术实现高效建模与精准细节捕捉

Fancy123是华中科技大学和华南理工大学推出的3D网格生成技术,基于即插即用的变形技术从单张图片生成高质量的3D网格。该方法包含两个增强模块和反投影操作,...
阅读原文

Mooncake:创新推理架构推动大模型智能应用的新时代

Mooncake是月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。采用以KVCache为中心的分布式架构,通过分离预填充和解码集群,充分利用GPU集群中未充...
阅读原文

QwQ-32B-Preview:超越O1模型的阿里开源AI推理产品实现高效精准的智能决策

QwQ-32B-Preview(QwQ-32B)是阿里巴巴开源的实验性研究AI模型,以强大的推理能力著称,尤其在数学和编程领域表现卓越。QwQ-32B-Preview包含325亿参数,能处...
阅读原文
191011121362