AI项目和框架

Memoripy:智能记忆管理库助力上下文感知的AI应用开发

Memoripy是一个Python库,为AI应用提供上下文感知的记忆管理。Memoripy支持短期和长期记忆存储,兼容OpenAI和Ollama API。核心功能包括记忆检索、概念提取、...
阅读原文

AnimateAnything:创新统一可控视频生成技术提升内容创作效率

AnimateAnything是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything能精确操作视频,包括控制相机轨迹、文本提示和用户动作注...
阅读原文

RAG-Diffusion:区域感知文本到图像生成技术的创新应用与优势分析

RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diff...
阅读原文

FitDiT:腾讯与复旦携手打造的高保真虚拟试穿技术实现无缝体验与精准匹配

FitDiT是高保真虚拟试穿技术,是腾讯和复旦大学联合推出的。基于Diffusion Transformers(DiT)关注高分辨率特征,提升服装细节的呈现。FitDiT用服装纹理提取...
阅读原文

Documind:高效PDF转图像工具助力结构化数据提取

Documind是开源的AI文档处理工具,能从PDF文档中提取结构化数据。Documind具备将PDF转换为图像、用OpenAI API进行信息提取,根据用户定义的模式格式化输出结...
阅读原文

MARS:提升大模型训练效率的字节优化框架解析

MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归...
阅读原文

Verifier Engineering:创新后训练范式推动产品智能化与个性化升级

Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engi...
阅读原文

Vidu 1.5:生数科技发布支持多主体一致性的多模态大规模模型

Vidu 1.5是生数科技推出的AI视频生成平台最新版本,致力于帮助创作者自由表达和高效创作。具备多模态视频大模型,支持参考生视频、图生视频和文生视频,确保...
阅读原文

AgentReview:基于大语言模型代理的同行评审过程模拟框架

AgentReview是基于大型语言模型(LLM)的框架,模拟学术同行评审过程。AgentReview基于LLM代理模拟评审者、作者和领域主席的角色,支持研究者在尊重隐私的同...
阅读原文

CHANGER:利用AI换头技术实现演员与目标身体的完美融合

CHANGER是工业级超自然AI换头与色键技术,用在数字内容创作中将演员头部无缝集成到目标身体上,适于视觉特效、数字人类创建和虚拟化身。CHANGER基于色键技术...
阅读原文

Kiroku:多智能体系统下学生与导师的互动与文档协作模拟研究

Kiroku是多智能体系统,辅助用户组织和撰写文档。灵感源自创始人在斯坦福大学攻读博士期间的学术写作经历,Kiroku模拟学生与导师间的互动,帮助用户快速生成...
阅读原文

Vision Search Assistant:结合视觉语言模型与网络代理搜索技术的开源框架研究

Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未...
阅读原文

MVDrag3D:南洋理工大学发布的可视化拖拽3D多视角编辑技术

MVDrag3D是创新的3D编辑框架,结合多视图生成和重建先验实现灵活且富有创造性的拖拽编辑。框架用多视图扩散模型作为生成先验,确保在多个渲染视图间进行一致...
阅读原文

Chonkie:多种文本分块技术:基于Token、单词、句子与语义的分析方法

Chonkie是轻量级、快速且功能丰富的RAG(Retrieval-Augmented Generation)分块库,为文本处理设计。Chonkie支持基于Token、单词、句子和语义的多种分块方法...
阅读原文

MSQA:大规模多模态3D场景推理数据集

MSQA(Multi-modal Situated Question Answering)是大规模多模态情境推理数据集,提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对,覆盖...
阅读原文
1192021222363