AI工具

Hyper-SD

Hyper-SD是由字节跳动的研究人员推出的一种高效的图像生成框架,通过轨迹分割一致性蒸馏(TSCD)技术,结合人类反馈学习和分数蒸馏,显著提升了扩散模型在少...
阅读原文

Arctic

Arctic是由云计算巨头Snowflake的AI研究团队开发的一款高效、开源的企业级大型语言模型,该大模型是一个拥有480亿(480B)的参数规模,由128个细粒度的专家构...
阅读原文

OpenELM

OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本。该大模型利用层...
阅读原文

ID-Animator

ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够根据单张参考面部图...
阅读原文

IDM-VTON

IDM-VTON是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过改进扩散模型来生成逼真的人物穿戴图像,实现更真实的虚拟试穿效果。
阅读原文

VideoGigaGAN

VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视频放大为具有丰富细节...
阅读原文

Stable Artisan

Stable Artisan是Stability AI推出的一款基于Discord平台的机器人服务,利用其强大的AI技术和模型,如 Stable Diffusion 3 (SD3) 图像生成和 Stable Video Di...
阅读原文

PuLID

PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
阅读原文

IC-Light

IC-Light是一款由ControlNet作者张吕敏开发的AI图像打光处理工具,可以对图片进行光源操纵和光影重构,实现与不同背景的完美融合。用户只需上传图片,选择光...
阅读原文

AniTalker

AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的一个对口型说话视频生成框架,能够将单张静态人像和输入的音频转换成栩栩如生的动...
阅读原文

GPT-4o

GPT-4o是OpenAI最新推出的一款先进的人工智能模型,具备强大的多模态推理能力,能够处理语音、文本和视觉信息。该模型能够实时响应用户输入,并且在音频交互...
阅读原文

混元DiT

混元DiT(Hunyuan-DiT)是由腾讯混元团队开发的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的...
阅读原文

Veo

Veo是由Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容,能够生成时长超过一分钟1080P分辨率的高质量...
阅读原文

腾讯元器

腾讯元器是腾讯公司在腾讯云生成式AI产业应用峰会上推出的一款基于其腾讯混元大模型的AI智能体创作与分发平台,可帮助用户轻松创建和部署智能体,无需编写代...
阅读原文

CogVLM2

CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文...
阅读原文