AI项目和框架
Agent-E:智能化网页操作助手提升浏览效率与用户体验
Agent-E是基于AutoGen代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。Agent-E基于自然语言交互,能执行填写表单、搜索排序电商产品、定位网页内...
Magic Copy:智能浏览器抠图工具自动识别图像轻松实现抠图功能
Magic Copy是开源的抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术,从图像中自动识别并提取前景对象,并将对象复制到用户的剪贴板...
NSFW Detector:智能开源AI内容检测工具,全面支持图像、PDF及视频文件识别
NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的vit-...
GLM-Edge:智谱端侧大语言与多模态模型的创新应用与优势分析
GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1.5...
FlagevalMM:智源多模态模型评测框架的创新特性与应用潜力
FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型...
GLM-PC:智谱CogAgent驱动的智能视觉助手,赋能创新与效率提升
GLM-PC是智谱科技基于CogAgent视觉多模态模型开发的通用Agent,能模拟人类操作计算机,实现“无人驾驶”PC的技术探索。GLM-PC能执行预定会议、文档处理、网页搜...
TryOffDiff:智能虚拟试穿技术打造个性化标准化服装图像
TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-...
CodeDPO:北京大学与字节联手打造的智能代码生成与优化解决方案
CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架,能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制,同时构建和评估代码及其测试...
Voice-Pro:一站式音频处理解决方案集转录翻译与语音合成于一体
Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言...
Generative Omnimatte:创新视频分解技术实现精准图像分离与增强
Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术,能将视频智能分解为多个透明背景的RGBA图层,每个图层对应一个物体及其相关效果(如阴...
Open Materials 2024:Meta推出创新开放数据集与预训练模型助力AI发展
Open Materials 2024 (OMat24) 是Meta推出的包含超过1.1亿个结构的密度泛函理论(DFT)计算的大型开放数据集,专注于无机材料的结构和成分多样性。附带预训练的...
Diffusion Self-Distillation:斯坦福大学创新零样本定制图像生成技术助力个性化创作
Diffusion Self-Distillation(DSD)是创新的零样本定制图像生成技术,用预训练的文本到图像扩散模型自动生成数据集,并将其微调为能进行文本条件的图像到图...
Talker-Reasoner:双思维AI代理架构:智能决策与自我学习的完美结合
Talker-Reasoner是谷歌DeepMind推出的AI代理架构,借鉴人类的认知理论,将代理分为两个模块:Talker和Reasoner。Talker模拟人类的快速直觉思维(System 1),...
Devika:智能编程助手助你轻松实现复杂指令的自动化执行
Devika是开源的AI编程助手,能理解并拆分复杂指令,基于集成AI搜索和网页浏览能力搜集信息,编写代码实现目标。Devika支持多种AI模型,具备高级规划推理能力...
EMOVA:华为诺亚方舟多模态处理模型全面提升智能交互与应用效率
EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、...