AI项目和框架

GLM-Edge:智谱端侧大语言与多模态模型的创新应用与优势分析

GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1.5...
阅读原文

FlagevalMM:智源多模态模型评测框架的创新特性与应用潜力

FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型...
阅读原文

GLM-PC:智谱CogAgent驱动的智能视觉助手,赋能创新与效率提升

GLM-PC是智谱科技基于CogAgent视觉多模态模型开发的通用Agent,能模拟人类操作计算机,实现“无人驾驶”PC的技术探索。GLM-PC能执行预定会议、文档处理、网页搜...
阅读原文

TryOffDiff:智能虚拟试穿技术打造个性化标准化服装图像

TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-...
阅读原文

CodeDPO:北京大学与字节联手打造的智能代码生成与优化解决方案

CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架,能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制,同时构建和评估代码及其测试...
阅读原文

Voice-Pro:一站式音频处理解决方案集转录翻译与语音合成于一体

Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言...
阅读原文

Generative Omnimatte:创新视频分解技术实现精准图像分离与增强

Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术,能将视频智能分解为多个透明背景的RGBA图层,每个图层对应一个物体及其相关效果(如阴...
阅读原文

Open Materials 2024:Meta推出创新开放数据集与预训练模型助力AI发展

Open Materials 2024 (OMat24) 是Meta推出的包含超过1.1亿个结构的密度泛函理论(DFT)计算的大型开放数据集,专注于无机材料的结构和成分多样性。附带预训练的...
阅读原文

Diffusion Self-Distillation:斯坦福大学创新零样本定制图像生成技术助力个性化创作

Diffusion Self-Distillation(DSD)是创新的零样本定制图像生成技术,用预训练的文本到图像扩散模型自动生成数据集,并将其微调为能进行文本条件的图像到图...
阅读原文

Talker-Reasoner:双思维AI代理架构:智能决策与自我学习的完美结合

Talker-Reasoner是谷歌DeepMind推出的AI代理架构,借鉴人类的认知理论,将代理分为两个模块:Talker和Reasoner。Talker模拟人类的快速直觉思维(System 1),...
阅读原文

Devika:智能编程助手助你轻松实现复杂指令的自动化执行

Devika是开源的AI编程助手,能理解并拆分复杂指令,基于集成AI搜索和网页浏览能力搜集信息,编写代码实现目标。Devika支持多种AI模型,具备高级规划推理能力...
阅读原文

EMOVA:华为诺亚方舟多模态处理模型全面提升智能交互与应用效率

EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、...
阅读原文

OminiControl:智能图像生成框架实现主题与空间精确控制的创新解决方案

OminiControl是高度通用且参数高效的图像生成框架,为扩散变换器模型如FLUX.1设计,实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和空间控制...
阅读原文

Promptriever:智能家居助手提升生活质量的五大关键特点

Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型,能像语言模型一样接受自然语言提示,用直观的方式响应用户的搜索需求。Promptriever...
阅读原文

LongLLaVA:多模态上下文混合架构大语言模型的创新应用与特点解析

LongLLaVA是多模态大型语言模型(MLLM),基于混合架构结合Mamba和Transformer模块,能高效处理大量图像,特别擅长视频理解和高分辨率图像分析。LongLLaVA在...
阅读原文
16263646566115