AI项目和框架

RegionDrag

RegionDrag是由香港大学和牛津大学联合开发的一种基于区域的图像编辑技术。基于扩散模型,让用户定义手柄区域和目标区域来表达编辑意图,实现快速且精确的图...
阅读原文

LinFusion

LinFusion 是新加坡国立大学研究团队开发的一种创新图像生成模型,基于线性注意力机制来处理高分辨率图像生成任务。使模型在处理大量像素时的计算复杂度保持...
阅读原文

Deepfake Defenders

Deepfake Defenders是由中国科学院自动化研究所的团队VisionRush开发的一款开源AI模型,旨在识别和防御Deepfake技术生成的伪造图像和视频。模型通过分析媒体...
阅读原文

蓝心大模型

蓝心大模型是vivo发布的全新自研通用大模型矩阵,包括语言大模型、端侧大模型、语音大模型、图像大模型以及多模态大模型。在多个领域和场景中发挥着重要作用...
阅读原文

VideoLLaMB

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视...
阅读原文

MagicMan

MagicMan 是清华大学深圳国际研究生院、腾讯AI实验室、香港科技大学、斯坦福大学和香港中文大学的研究团队共同推出的AI项目,专注于基于深度学习技术从单张2D...
阅读原文

DeepSeek-Coder-V2

DeepSeek-Coder-V2 是由DeepSeek推出的开源代码语言模型,在代码特定任务中的表现与 GPT4-Turbo 相媲美。模型在 DeepSeek-V2 的基础上,额外预训练了 6 万亿...
阅读原文

AppFlowy

AppFlowy 是一个开源的笔记和任务管理工具,被设计为 Notion 的替代品,提供了更好的隐私保护。使用 Rust 和 Flutter 构建,遵循极简原则,提供了足够的调整...
阅读原文

丰语大模型

丰语大模型是顺丰科技推出的物流行业专用大语言模型。顺丰科技表示,丰语大模型以更小的尺寸模型对更大尺寸通用模型在物流垂域的全面超越。丰语大模型已在市...
阅读原文

SAM2Point

SAM2Point是基于SAM2的3D分割技术,无需额外训练或 2D-3D 投影,直接对任意3D数据进行零样本分割。通过将3D数据体素化,模拟为多方向视频流,基于SAM2实现精...
阅读原文

CodeFuse-muAgent

CodeFuse-muAgent 是蚂蚁集团 CodeFuse 团队开发的多智能体框架,基于知识图谱引擎来驱动智能体的编排和协作。简化智能体的标准操作程序编排流程。通过集成工...
阅读原文

VoxInstruct

VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架,将传统的文本到...
阅读原文

Pixtral 12B

Pixtral 12B 是法国AI初创公司Mistral推出的首款多模态AI模型,能同时处理图像和文本。模型拥有 120 亿参数,模型大小约为 24GB,基于文本模型 Nemo 12B构建...
阅读原文

MMRole

MMRole是由中国人民大学高瓴人工智能学院研究团队推出的的一种多模态角色扮演智能体(MRPA)框架。通过结合图像和文本,使智能体以特定角色进行更自然和沉浸...
阅读原文

ReHiFace-S

RReHiFace-S是由硅基智能团队推出的开源项目,实现高保真、实时人脸替换的AI算法,用户通过简单的操作在视频或直播中进行面部交换。
阅读原文
19192939495115