AI项目和框架

FaceSwap

FaceSwap 是一个开源的AI软件,用于创建深度伪造(Deepfakes)视频和图像。基于深度学习技术,在视频或图片中将一个人的脸替换成另一个人的脸。FaceSwap 支持...
阅读原文

Seed-Music

Seed-Music是字节跳动推出的AI音乐生成大模型,将用户录制的 10 秒音频转化为完整的音乐作品。通过自回归语言模型和扩散方法,根据用户的多模态输入(如风格...
阅读原文

ConFiner

ConFiner 是一个创新的视频生成框架,由多所大学和研究机构共同推出。结合多个现成的扩散模型专家,无需额外训练可生成高质量且连贯的视频内容。

M2UGen

M2UGen是先进的多模态音乐理解和生成框架,由腾讯PCG ARC实验室与新加坡国立大学联合推出。结合了大型语言模型(LLM)的能力,能处理包括文本、图像、视频和...
阅读原文

Nemotron-Mini-4B-Instruct

Nemotron-Mini-4B-Instruct是英伟达推出的一款开源小型语言模型,专为角色扮演、检索增强生成(RAG)和函数调用任务优化。模型通过蒸馏、剪枝和量化技术优化...
阅读原文

PoseTalk

PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目,用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频,为用户提供...
阅读原文

Follow-Your-Canvas

Follow-Your-Canvas 是由腾讯混元团队与清华大学等机构合作推出的一种高分辨率视频扩展技术。通过分布式处理和布局对齐两个核心设计,将视频内容扩展到任意分...
阅读原文

Filmfotos

Filmfotos是由DynamicWang推出的的基于Flux架构的LoRA模型,专注于模拟和还原胶片的质感效果。以低饱和度的日系胶片风格为特点,为照片带来柔和、细腻的复古...
阅读原文

Faster Whisper

Faster Whisper 是一个基于OpenAI Whisper模型的高效语音识别工具,运用CTranslate2引擎实现快速推理。在保持高准确度的同时,提升语音转写速度,降低内存使...
阅读原文

SwiftBrush V2

SwiftBrush V2 是文本到图像的单步扩散模型,通过改进训练方法和模型融合技术,实现与多步Stable Diffusion扩散模型相媲美的性能。模型通过更好的权重初始化...
阅读原文

Jina-embeddings-v3

Jina-embeddings-v3 是 Jina AI 推出的一款先进的文本嵌入模型,专为多语言数据处理和长文本上下文检索任务设计。模型拥有 5.7 亿参数,支持长达 8192 个 tok...
阅读原文

Click2Mask

Click2Mask 是一种先进的图像编辑技术,支持用户通过在图片上简单点击来实现局部编辑,无需复杂的遮罩或详细描述。通过动态生成遮罩,结合混合潜在扩散(BLD...
阅读原文

DrawingSpinUp

DrawingSpinUp 是一种先进的3D动画生成技术,由香港城市大学的研究团队推出。模型将平面的角色绘画转化为具有3D效果的动态动画,同时保留原始艺术作品的风格...
阅读原文

Qwen2.5-Coder

Qwen2.5-Coder 是阿里Qwen 团队推出的全系列代码生成模型,推动开源代码语言模型的发展。在代码生成、代码推理、代码修复等任务上表现出色。系列涵盖了不同规...
阅读原文

Qwen2.5-Math

Qwen2.5-Math是由阿里巴巴Qwen团队推出的开源AI数学模型,是Qwen2-Math的升级版,支持中英双语。模型通过大规模数学数据预训练,结合CoT、PoT和TIR推理方法,...
阅读原文
19394959697115