标签:多语言支持

Kimi-VL

Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于 Mixture-of-Experts (MoE) 架构,总参数量为16B,推理时仅激活2.8B。Kimi-VL具备强大的多模态推理...
阅读原文

FantasyTalking

FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,...
阅读原文

日日新SenseNova V6

日日新SenseNova V6是商汤推出的日日新第六代多模态融合大模型系列,基于6000亿参数的多模态MoE架构,实现文本、图像和视频的原生融合。日日新SenseNova V6在...
阅读原文

MoLing

MoLing 是无依赖的本地办公自动化助手,是基于计算机和浏览器使用的 MCP 服务器。MoLing 基于操作系统 API 实现系统交互,支持文件系统操作(如读写、合并、...
阅读原文

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 推出的高效、低延迟的 AI 模型,基于 Gemini 2.5 模型构建。Gemini 2.5 Flash在保持低延迟和成本效益的同时,引入思考能力。
阅读原文

Lipsync-2

Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练,能即时学习并生成符合独特说话风格的嘴型同步效果。
阅读原文

Llama Nemotron

Llama Nemotron是NVIDIA推出的一系列推理模型,专注于推理和多种智能代理(agentic AI)任务。模型基于Llama开源模型,经过NVIDIA的后训练,加入推理能力,在...
阅读原文

Dream-7B

Dream-7B是香港大学和华为诺亚方舟实验室联合推出的扩散式推理模型,是目前最强大的开源扩散大语言模型。Dream-7B训练数据涵盖文本、数学和代码,预训练使用5...
阅读原文

DeepCoder-14B-Preview

DeepCoder-14B-Preview 是 Agentica 和 Together AI 联合开源的大型代码生成模型,基于 Deepseek-R1-Distilled-Qwen-14B 微调而成。DeepCoder-14B-Preview基...
阅读原文

Step-R1-V-Mini

Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视...
阅读原文

Llama 4

Llama 4 是 Meta 推出的多模态人工智能模型。首次采用混合专家(MoE)架构,在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个版本。Scout...
阅读原文

OmniTalker

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 T...

DeepSeek-GRM

DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型(Generalist Reward Modeling)。通过点式生成式奖励建模(Pointwise Generative Reward Mod...
阅读原文

OlympicArena

OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。OlympicArena包...
阅读原文

BabelDOC

BabelDOC 是开源的智能 PDF 翻译工具,专为科学论文翻译设计。能在原文旁生成翻译文本,形成双语对照,无需切换窗口,方便阅读。能完整保留数学公式、表格和...
13456757