AI项目和框架
Vidu 1.5:生数科技发布支持多主体一致性的多模态大规模模型
Vidu 1.5是生数科技推出的AI视频生成平台最新版本,致力于帮助创作者自由表达和高效创作。具备多模态视频大模型,支持参考生视频、图生视频和文生视频,确保...
AgentReview:基于大语言模型代理的同行评审过程模拟框架
AgentReview是基于大型语言模型(LLM)的框架,模拟学术同行评审过程。AgentReview基于LLM代理模拟评审者、作者和领域主席的角色,支持研究者在尊重隐私的同...
CHANGER:利用AI换头技术实现演员与目标身体的完美融合
CHANGER是工业级超自然AI换头与色键技术,用在数字内容创作中将演员头部无缝集成到目标身体上,适于视觉特效、数字人类创建和虚拟化身。CHANGER基于色键技术...
Kiroku:多智能体系统下学生与导师的互动与文档协作模拟研究
Kiroku是多智能体系统,辅助用户组织和撰写文档。灵感源自创始人在斯坦福大学攻读博士期间的学术写作经历,Kiroku模拟学生与导师间的互动,帮助用户快速生成...
Vision Search Assistant:结合视觉语言模型与网络代理搜索技术的开源框架研究
Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未...
MVDrag3D:南洋理工大学发布的可视化拖拽3D多视角编辑技术
MVDrag3D是创新的3D编辑框架,结合多视图生成和重建先验实现灵活且富有创造性的拖拽编辑。框架用多视图扩散模型作为生成先验,确保在多个渲染视图间进行一致...
Chonkie:多种文本分块技术:基于Token、单词、句子与语义的分析方法
Chonkie是轻量级、快速且功能丰富的RAG(Retrieval-Augmented Generation)分块库,为文本处理设计。Chonkie支持基于Token、单词、句子和语义的多种分块方法...
MSQA:大规模多模态3D场景推理数据集
MSQA(Multi-modal Situated Question Answering)是大规模多模态情境推理数据集,提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对,覆盖...
Excalidraw:实时协作的手绘风格在线白板工具
Excalidraw是开源的在线绘图工具,拥有简洁的手绘风格和实时协作功能。Excalidraw完全在浏览器中运行,无需安装,支持多人同时编辑同一张图,提供端到端加密...
RMBG-2.0:高精度图像背景去除模型的开源解决方案
RMBG-2.0是BRIA AI推出的最新开源图像背景移除模型,基于先进的AI技术实现高精度的前景与背景分离,达到SOTA(State of the Art,即当前最佳)水平。RMBG-2.0...
JanusFlow:多模态理解与生成任务的统一框架DeepSeek的开源实现
JanusFlow是DeepSeek推出的 Janus 系列,用在多模态理解和生成任务的模型,整合自回归语言模型与校正流技术,在单一模型中实现图像理解和生成。框架基于解耦...
SWE-Kit:基于开源框架打造个性化软件工程AI助手
SWE-Kit 是Composio 推出的开源框架, 简化软件工程 AI 代理的开发过程。SWE-Kit提供无头 IDE 环境和 AI 原生工具,用于构建自定义编码代理,支持与多种代理...
Text Behind Image:在角色背后插入文字标题
Text Behind Image是开源的在线工具,支持用户在图片中的角色背后添加文字,创建具有视觉冲击力的海报和社交媒体图像。用户在图像中的主体背后添加自定义文本...
云锦天章:基于DCFormer架构的通用大模型由彩云科技发布
云锦天章是彩云科技推出的基于DCFormer架构的通用大模型,DCFormer在性能上实现对传统Transformer模型1.7-2倍的提升。云锦天章在虚构的世界观基础上赋予小说...
Void:开源AI编码工具的智能补全与建议功能
Void 是基于 Visual Studio Code 构建的开源文本编辑器,集成AI技术增强编程体验。Void支持代码自动补全、内联编辑、AI 驱动的代码搜索,直接与大型语言模型...