AI项目和框架
Scenethesis
Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM ...
VITA-Audio
VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出...
Parakeet TDT 0.6B
Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
Multiverse
Multiverse是以色列团队Enigma Labs推出的全球首个AI生成多人游戏模型。是多人赛车游戏,玩家可以超车、漂移、加速,每一次行动会实时影响并重塑游戏世界。模...
Open Code Reasoning
Open Code Reasoning(OCR)是英伟达开源的代码推理AI模型,基于Nemotron架构,专为提升代码推理和生成能力设计。OCR包含32B、14B和7B三种模型版本,分别适用...
WebThinker
WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行...
HunyuanCustom
HunyuanCustom是腾讯混元团队推出的多模态驱动的定制化视频生成框架。HunyuanCustom支持图像、音频、视频和文本等多种输入条件,支持生成具有特定主体和场景...