AI项目和框架

Lipsync-2

Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练，能即时学习并生成符合独特说话风格的嘴型同步效果。

阅读原文

AI工具

1年前 (2025)

Llama Nemotron

Llama Nemotron是NVIDIA推出的一系列推理模型，专注于推理和多种智能代理（agentic AI）任务。模型基于Llama开源模型，经过NVIDIA的后训练，加入推理能力，在...

阅读原文

AI工具

1年前 (2025)

Dream-7B

Dream-7B是香港大学和华为诺亚方舟实验室联合推出的扩散式推理模型，是目前最强大的开源扩散大语言模型。Dream-7B训练数据涵盖文本、数学和代码，预训练使用5...

阅读原文

AI工具

1年前 (2025)

Miracle F1

Miracle F1 是美图 WHEE 推出的全新AI图像生成模型。具备强大的图像生成能力，能像摄影师、建筑师和画家一样精准地处理光影、空间和材质效果，生成的图像真实...

阅读原文

AI工具

1年前 (2025)

DeepCoder-14B-Preview

DeepCoder-14B-Preview 是 Agentica 和 Together AI 联合开源的大型代码生成模型，基于 Deepseek-R1-Distilled-Qwen-14B 微调而成。DeepCoder-14B-Preview基...

阅读原文

AI工具

1年前 (2025)

GitHub MCP Server

GitHub MCP Server 是GitHub 官方推出的基于 Model Context Protocol (MCP) 的服务器工具，GitHub MCP Server能无缝集成 GitHub API，为开发者提供高级自动化...

阅读原文

AI工具

1年前 (2025)

Nova Sonic

Nova Sonic 是亚马逊推出的新型生成式 AI 语音模型。将语音理解与生成能力整合到一个模型中，能根据说话者的语调、风格等声学上下文调整生成的语音响应，对话...

阅读原文

AI工具

1年前 (2025)

Step-R1-V-Mini

Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出，具备良好的指令遵循和通用能力，能高精度感知图像完成复杂推理任务。模型在视...

阅读原文

AI工具

1年前 (2025)

SeniorTalk

SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超...

阅读原文

AI工具

1年前 (2025)

ChildMandarin

ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）共同推出的，针对3-5岁儿童的普通话语音数据集。数据集包含41.25小时的语音...

阅读原文

AI工具

1年前 (2025)

SkyReels-A2

SkyReels-A2是昆仑万维推出的可控视频生成框架，支持根据文本提示将任意视觉元素（如人物、物体、背景）组合成合成视频，严格保持与每个元素的参考图像的一致...

AI工具

1年前 (2025)

ACTalker

ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制，如音频、表情等。核心架构包括并行 Mamba 结构，通过多个分支利用不...

阅读原文

AI工具

1年前 (2025)

Seedream 3.0

Seedream 3.0是字节跳动豆包大模型团队推出的AI绘图模型，在中文文字生成和设计感方面表现出色，解决小字生成的稳定性问题，能精准生成复杂的中文内容，提供...

阅读原文

AI工具

1年前 (2025)

Quasar Alpha

Quasar Alpha 是 OpenRouter 发布的预发布版 AI 模型。拥有 100 万 token 的超大上下文窗口，可处理超长文本和复杂文档。代码生成能力出色，生成速度快，延迟...

阅读原文

AI工具

1年前 (2025)

OmniCam

OmniCam 是先进的多模态视频生成框架，通过摄像机控制实现高质量的视频生成。支持多种输入模态组合，用户可以提供文本描述、视频中的轨迹或图像作为参考，精...

阅读原文

AI工具

1年前 (2025)

1…79 808182 83…183