AI项目和框架
Lobe Vidol:智能交互平台让你与虚拟人和3D模型实时对话探索新世界
Lobe Vidol是开源的数字人创作平台,让每个人都能轻松创建和互动自己的虚拟偶像。Lobe Vidol提供流畅的对话体验、背景设置、动作姿势库、优雅的用户界面、角...
GPT学术优化:多功能开源项目助力学术研究与写作的高效创新工具
GPT学术优化(GPT Academic)是功能丰富的开源项目,专为学术研究和写作设计。GPT学术优化集成一键论文翻译、源代码解析、互联网信息获取、Latex文章校对、论...
HiFiVFS:高保真视频换脸技术引领视觉
HiFiVFS(High Fidelity Video Face Swapping)是腾讯和VIVO公司推出的高保真视频换脸框架,HiFiVFS基于Stable Video Diffusion(SVD)框架,用多帧输入和时...
MVGenMaster:多视角融合的智能扩散模型提升数据分析与生成能力
MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,基于增强3D先验处理多样化的新视角合成(NVS)任务。模型基于度量深度和相机...
360Zhinao2-7B:360智脑大模型升级版全面提升智能交互与数据处理能力
360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。360Zhinao2-7B模型是继360Zhinao1-7B之后的重要更新,基于...
Co-op Translator:开源多语言翻译工具助力开发者轻松实现跨语言沟通
Co-op Translator是微软推出的开源翻译工具,基于Azure AI服务实现项目文档和图像中文本的自动化多语言翻译。仅需一条命令,Co-op Translator能分析项目内容...
AnchorCrafter:中科院与腾讯携手打造智能虚拟主播实现高效带货新模式
AnchorCrafter是基于扩散模型的智能视频制作系统,用在自动生成具有高保真度的主播风格产品推广视频。基于整合人-物交互(HOI)到姿态引导的人体视频生成中,...
MyTimeMachine:智能面部年龄转换技术实现20至40年年龄跨度的个性化体验
MyTimeMachine(MyTM)是先进的个性化面部年龄转换技术,基于大约50张个人照片,跨越20至40年的时间跨度,训练一个适配器网络个性化预训练的全局老化模型。My...
MultiFoley:创新音效生成系统助力创作者实现无限灵感
MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音...
CAT4D:基于单目视频技术的创新4D场景生成方法解析
CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的,能从单目视频创建4D场景(动态3D)表示。CAT4D基于多视图视频扩散模型,能在任意指...
Make-It-Animatable:中科大与腾讯联手打造智能即时动画生成资产系统
Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架,能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态,无论其形状和姿势如何。...
Delta-CoMe:新型高效增量压缩算法助力数据存储优化与传输提速
Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法,一个80G的A100 GPU能轻松加载多达50个7B模型,节省显存...
Agent-E:智能化网页操作助手提升浏览效率与用户体验
Agent-E是基于AutoGen代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。Agent-E基于自然语言交互,能执行填写表单、搜索排序电商产品、定位网页内...
Magic Copy:智能浏览器抠图工具自动识别图像轻松实现抠图功能
Magic Copy是开源的抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术,从图像中自动识别并提取前景对象,并将对象复制到用户的剪贴板...
NSFW Detector:智能开源AI内容检测工具,全面支持图像、PDF及视频文件识别
NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的vit-...