AI项目和框架

Audio-SDS

Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需...
阅读原文

Seed1.5-Embedding

Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效...
阅读原文

FastVLM

FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著...
阅读原文

ZenCtrl

ZenCtrl 是 Fotographer AI 推出的 AI 图像生成工具,支持从单张图像生成高质量、多视角和多样化场景的图像,无需额外训练数据。
阅读原文

Seed-Coder

Seed-Coder是字节跳动开源的8B规模代码模型系列,提升代码生成与理解能力。包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂推理...
阅读原文

LegoGPT

LegoGPT 是卡内基梅隆大学推出的乐高积木设计模型,支持基于文本提示生成物理稳定且能构建的乐高积木模型。LegoGPT 基于自回归语言模型和大规模乐高设计数据...
阅读原文

BILIVE

BILIVE 是一款基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的...
阅读原文

LTXV-13B

LTXV-13B 是Lightricks推出的开源 AI 视频生成模型,拥有 130 亿参数。具备极高的生成速度,比同类产品快 30 倍,能在普通消费级显卡(如 4090/5090)上运行...
阅读原文

PixelHacker

PixelHacker 是华中科技大学和 VIVO AI Lab联合推出的图像修复(Image Inpainting)模型。基于引入潜在类别引导(Latent Categories Guidance, LCG)范式,分...
阅读原文

Mogao

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解...
阅读原文

Scenethesis

Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM ...
阅读原文

FunGPT

FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独...
阅读原文

SuperEdit

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperE...
阅读原文

FlowGram.AI

FlowGram 是字节跳动开源的基于节点编辑的前端流程搭建引擎,帮助开发者快速构建固定布局或自由连线布局的工作流。支持两种布局模式:固定布局适合顺序工作流...
阅读原文

VITA-Audio

VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出...
阅读原文
189101112122