AI项目和框架
360Zhinao2-7B:360智脑大模型升级版全面提升智能交互与数据处理能力
360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。360Zhinao2-7B模型是继360Zhinao1-7B之后的重要更新,基于...
Co-op Translator:开源多语言翻译工具助力开发者轻松实现跨语言沟通
Co-op Translator是微软推出的开源翻译工具,基于Azure AI服务实现项目文档和图像中文本的自动化多语言翻译。仅需一条命令,Co-op Translator能分析项目内容...
AnchorCrafter:中科院与腾讯携手打造智能虚拟主播实现高效带货新模式
AnchorCrafter是基于扩散模型的智能视频制作系统,用在自动生成具有高保真度的主播风格产品推广视频。基于整合人-物交互(HOI)到姿态引导的人体视频生成中,...
MyTimeMachine:智能面部年龄转换技术实现20至40年年龄跨度的个性化体验
MyTimeMachine(MyTM)是先进的个性化面部年龄转换技术,基于大约50张个人照片,跨越20至40年的时间跨度,训练一个适配器网络个性化预训练的全局老化模型。My...
MultiFoley:创新音效生成系统助力创作者实现无限灵感
MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音...
CAT4D:基于单目视频技术的创新4D场景生成方法解析
CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的,能从单目视频创建4D场景(动态3D)表示。CAT4D基于多视图视频扩散模型,能在任意指...
Make-It-Animatable:中科大与腾讯联手打造智能即时动画生成资产系统
Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架,能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态,无论其形状和姿势如何。...
Delta-CoMe:新型高效增量压缩算法助力数据存储优化与传输提速
Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法,一个80G的A100 GPU能轻松加载多达50个7B模型,节省显存...
Agent-E:智能化网页操作助手提升浏览效率与用户体验
Agent-E是基于AutoGen代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。Agent-E基于自然语言交互,能执行填写表单、搜索排序电商产品、定位网页内...
Magic Copy:智能浏览器抠图工具自动识别图像轻松实现抠图功能
Magic Copy是开源的抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术,从图像中自动识别并提取前景对象,并将对象复制到用户的剪贴板...
NSFW Detector:智能开源AI内容检测工具,全面支持图像、PDF及视频文件识别
NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的vit-...
GLM-Edge:智谱端侧大语言与多模态模型的创新应用与优势分析
GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1.5...
FlagevalMM:智源多模态模型评测框架的创新特性与应用潜力
FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型...
GLM-PC:智谱CogAgent驱动的智能视觉助手,赋能创新与效率提升
GLM-PC是智谱科技基于CogAgent视觉多模态模型开发的通用Agent,能模拟人类操作计算机,实现“无人驾驶”PC的技术探索。GLM-PC能执行预定会议、文档处理、网页搜...
TryOffDiff:智能虚拟试穿技术打造个性化标准化服装图像
TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-...