AI项目和框架

SmolVLM:轻量级视觉语言模型助力多模态任务的高效解决方案

SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同...
阅读原文

Edify 3D:革新3D生成技术助力创意无限可能

Edify 3D 是 NVIDIA 推出的先进3D资产生成方案,能从文本提示或参考图像快速合成高质量的3D模型。Edify 3D能在两分钟内生成具有详细几何形状、清晰拓扑结构、...
阅读原文

SongCreator:智能音乐创作助手提升您的音乐创作体验

SongCreator是清华大学深圳国际研究生院、香港中文大学等机构推出的歌曲生成系统,能从歌词出发生成包含声乐和伴奏的完整歌曲。基于双序列语言模型(DSLM)和...
阅读原文

Teacher2Task:创新的多教师学习框架提升人工智能训练效率与精准性

Teacher2Task是谷歌团队推出的多教师学习框架,引入教师特定的输入标记和重新构思训练过程,消除对手动聚合启发式方法的需求。框架不依赖聚合标签,将训练数...
阅读原文

DynaSaur:Adobe创新推出的多功能大语言模型代理框架提升创作效率与智能化体验

DynaSaur是Adobe Research推出的大型语言模型(LLM)代理框架,突破传统LLM代理系统受限于预定义动作集合的限制。框架支持代理动态创建和组合动作,基于生成...
阅读原文

Takin AudioLLM:创新零样本语音生成模型助力个性化语音合成体验

Takin AudioLLM是喜马拉雅Everest团队推出的一系列高质量零样本语音生成模型,包括Takin TTS、Takin VC和Takin Morphing。模型用最新的大型语言模型技术,专...
阅读原文

AutoTrain:无代码模型训练平台助力轻松构建高性能AI应用

AutoTrain(AutoTrain Advanced)是Hugging Face推出的开源无代码平台,能简化最先进模型的训练过程。支持用户无需编写代码即可创建、微调和部署自己的AI模型...
阅读原文

CAMPHOR:创新端侧小语言模型推动多智能体协作与智能交互的新时代

CAMPHOR是苹果团队推出的端侧小语言模型(SLM)多智能体框架,能提升移动设备的隐私保护和响应速度。框架基于在设备本地处理多个用户输入并进行个人上下文推...
阅读原文

XGrammar:智能化结构化生成引擎提升文本创作效率与质量

XGrammar是由陈天奇团队推出的开源软件库,能为大型语言模型(LLM)提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法(CFG)定义结构,支持...
阅读原文

Fugatto:英伟达推出性多功能AI音频生成模型,支持高质量音频合成与实时语音转换

Fugatto是英伟达(NVIDIA)推出的音频合成和转换模型,全称为"Foundational Generative Audio Transformer Opus 1"。模型能根据文本提示生成音频或...
阅读原文

LongRAG:双视角鲁棒检索框架助力高效精准信息获取

LongRAG是清华大学、中国科学院和智谱的研究团队推出的,面向长文本问答(LCQA)的双视角鲁棒检索增强生成(RAG)框架。基于混合检索器、LLM增强信息提取器、...
阅读原文

Illustrious:高质量动漫风格图像生成的创新开源模型

Illustrious是开源的文本到图像动漫图像生成模型,是Onoma AI Research推出的。基于优化批量大小、dropout控制、训练图像分辨率和多级标题等关键方法,实现高...
阅读原文

aisuite:多模型接口整合的开源Python库助力高效AI应用开发

aisuite是开源的Python库,吴恩达(Andrew Ng)发布的,旨在提供一个统一的接口来调用多个大型语言模型(LLM)服务。支持包括OpenAI、Anthropic、Azure等在内...
阅读原文

MobA:智能移动体引领未来科技的便捷生活

MobA(Mobile Agent)是上海交通大学团队推出的新型移动智能体,基于多模态大型语言模型(MLLMs)提升移动设备的自动化任务执行能力。MobA采用两级架构:高级...
阅读原文

Frames:突破创意界限的AI图像生成模型全面提升视觉艺术创作体验

Frames是Runway推出的最新AI图像生成模型,在风格控制和视觉保真度方面取得巨大进步。Frames能维持风格一致性,支持广泛的创意探索,为项目建立特定外观,并...
阅读原文
1343536373885