AI项目和框架

InstantStyle

InstantStyle是小红书的InstantX团队开源的保留风格一致性的个性化文本到图像生成框架,旨在解决文本到图像生成中的一个关键问题:如何在保持风格一致性的同...
阅读原文

DesignEdit

DesignEdit是由微软亚洲研究院和北京大学的研究团队共同开发的一个AI图像编辑框架,引入了设计领域的图层概念,采用多层潜在分解和融合的技术,实现了无需额...
阅读原文

CodeGemma

CodeGemma是由Google发布的专注于代码生成和理解的大型语言模型,该系列包含三种不同规模的模型,分别是2B预训练模型、7B预训练模型和7B指令微调模型,旨在提...
阅读原文

Parler-TTS

Parler-TTS是由Hugging Face推出的一款开源的文本到语音(TTS)模型,能够通过输入提示描述模仿特定说话者的风格(性别、音调、说话风格等),生成高质量、听...
阅读原文

VASA-1

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。
阅读原文

Llama 3

Llama 3是Meta公司最新开源推出的新一代大型语言模型(LLM),包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为Llama系列的第三...
阅读原文

FunClip

FunClip是阿里达摩院推出的一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室的FunASR Paraformer系列模型实现视频的自动化语音识别...
阅读原文

Phi-3

Phi-3是微软研究院推出的新一代系列先进的小语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时...
阅读原文

Hyper-SD

Hyper-SD是由字节跳动的研究人员推出的一种高效的图像生成框架,通过轨迹分割一致性蒸馏(TSCD)技术,结合人类反馈学习和分数蒸馏,显著提升了扩散模型在少...
阅读原文

Arctic

Arctic是由云计算巨头Snowflake的AI研究团队开发的一款高效、开源的企业级大型语言模型,该大模型是一个拥有480亿(480B)的参数规模,由128个细粒度的专家构...
阅读原文

OpenELM

OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本。该大模型利用层...
阅读原文

ID-Animator

ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够根据单张参考面部图...
阅读原文

IDM-VTON

IDM-VTON是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过改进扩散模型来生成逼真的人物穿戴图像,实现更真实的虚拟试穿效果。
阅读原文

VideoGigaGAN

VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视频放大为具有丰富细节...
阅读原文

PuLID

PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
阅读原文
17879808182115