标签：多语言支持

FantasyTalking

FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架，用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型，...

阅读原文

AI工具

1年前 (2025)

日日新SenseNova V6

日日新SenseNova V6是商汤推出的日日新第六代多模态融合大模型系列，基于6000亿参数的多模态MoE架构，实现文本、图像和视频的原生融合。日日新SenseNova V6在...

阅读原文

AI工具

1年前 (2025)

MoLing

MoLing 是无依赖的本地办公自动化助手，是基于计算机和浏览器使用的 MCP 服务器。MoLing 基于操作系统 API 实现系统交互，支持文件系统操作（如读写、合并、...

阅读原文

AI工具

1年前 (2025)

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 推出的高效、低延迟的 AI 模型，基于 Gemini 2.5 模型构建。Gemini 2.5 Flash在保持低延迟和成本效益的同时，引入思考能力。

阅读原文

AI工具

1年前 (2025)

Lipsync-2

Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练，能即时学习并生成符合独特说话风格的嘴型同步效果。

阅读原文

AI工具

1年前 (2025)

Llama Nemotron

Llama Nemotron是NVIDIA推出的一系列推理模型，专注于推理和多种智能代理（agentic AI）任务。模型基于Llama开源模型，经过NVIDIA的后训练，加入推理能力，在...

阅读原文

AI工具

1年前 (2025)

Dream-7B

Dream-7B是香港大学和华为诺亚方舟实验室联合推出的扩散式推理模型，是目前最强大的开源扩散大语言模型。Dream-7B训练数据涵盖文本、数学和代码，预训练使用5...

阅读原文

AI工具

1年前 (2025)

DeepCoder-14B-Preview

DeepCoder-14B-Preview 是 Agentica 和 Together AI 联合开源的大型代码生成模型，基于 Deepseek-R1-Distilled-Qwen-14B 微调而成。DeepCoder-14B-Preview基...

阅读原文

AI工具

1年前 (2025)

Step-R1-V-Mini

Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出，具备良好的指令遵循和通用能力，能高精度感知图像完成复杂推理任务。模型在视...

阅读原文

AI工具

1年前 (2025)

Llama 4

Llama 4 是 Meta 推出的多模态人工智能模型。首次采用混合专家（MoE）架构，在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个版本。Scout...

阅读原文

AI工具

1年前 (2025)

OmniTalker

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术，能同时处理文本、图像、音频和视频等多种模态输入，以流式方式生成自然语音响应。核心架构为 T...

AI工具

1年前 (2025)

DeepSeek-GRM

DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型（Generalist Reward Modeling）。通过点式生成式奖励建模（Pointwise Generative Reward Mod...

阅读原文

AI工具

1年前 (2025)

OlympicArena

OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室（GAIR Lab）联合推出的多学科认知推理基准测试框架。OlympicArena包...

阅读原文

AI工具

1年前 (2025)

BabelDOC

BabelDOC 是开源的智能 PDF 翻译工具，专为科学论文翻译设计。能在原文旁生成翻译文本，形成双语对照，无需切换窗口，方便阅读。能完整保留数学公式、表格和...

AI工具

1年前 (2025)

枝页

枝页（iBleaf）是基于金字塔原理设计的AI笔记工具，帮助用户将碎片化的知识整理成清晰有序的知识体系。通过知识树的形式，让用户能以层级化的结构组织笔记，...

阅读原文

AI工具

1年前 (2025)

1…8 91011 12…62