标签:多语言支持
FantasyTalking
FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,...
日日新SenseNova V6
日日新SenseNova V6是商汤推出的日日新第六代多模态融合大模型系列,基于6000亿参数的多模态MoE架构,实现文本、图像和视频的原生融合。日日新SenseNova V6在...
Gemini 2.5 Flash
Gemini 2.5 Flash 是 Google 推出的高效、低延迟的 AI 模型,基于 Gemini 2.5 模型构建。Gemini 2.5 Flash在保持低延迟和成本效益的同时,引入思考能力。
Llama Nemotron
Llama Nemotron是NVIDIA推出的一系列推理模型,专注于推理和多种智能代理(agentic AI)任务。模型基于Llama开源模型,经过NVIDIA的后训练,加入推理能力,在...
DeepCoder-14B-Preview
DeepCoder-14B-Preview 是 Agentica 和 Together AI 联合开源的大型代码生成模型,基于 Deepseek-R1-Distilled-Qwen-14B 微调而成。DeepCoder-14B-Preview基...
Step-R1-V-Mini
Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视...
OmniTalker
OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 T...
DeepSeek-GRM
DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型(Generalist Reward Modeling)。通过点式生成式奖励建模(Pointwise Generative Reward Mod...
OlympicArena
OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。OlympicArena包...
BabelDOC
BabelDOC 是开源的智能 PDF 翻译工具,专为科学论文翻译设计。能在原文旁生成翻译文本,形成双语对照,无需切换窗口,方便阅读。能完整保留数学公式、表格和...