标签:多语言支持

Phi-4-Mini

Phi-4-Mini 是微软 Phi-4 系列中最新推出的专注于文本任务的小型语言模型,参数量为 38 亿。基于密集的解码器-only Transformer 架构,结合分组查询注意力(G...
阅读原文

IndexTTS

IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为自然流畅的语音...
阅读原文

All Voice Lab

All Voice Lab(趣丸千音)是全球领先的AI语音创作平台,提供一站式智能语音解决方案,基于趣丸科技与香港中文大学(深圳)联合研发的MaskGCT语音大模型开发...
阅读原文

Dreamona

Dreamona 是 AI 视频生成工具,用户基于简单的文字描述或上传图片,快速生成高质量的动态视频。Dreamona 支持多种视频风格,从现实主义到创意动画,满足不同...
阅读原文

olmOCR

olmOCR 是 Ai2 推出的开源工具,用在将 PDF 文档高效转换为干净的结构化纯文本。olmOCR结合文档锚定(document-anchoring)技术与Qwen2-VL-7B-Instruct(阿里...
阅读原文

Flame

Flame是开源的多模态AI模型,支持将UI设计截图转换为高质量的现代前端代码。Flame基于视觉语言建模、自动化数据合成和结构化训练流程,生成符合React等现代前...
阅读原文

Gemini Code Assist

Gemini Code Assist 是 Google 推出的 AI 编程工具,能帮助开发者更高效地编写代码、提升代码质量。Gemini Code Assist 基于 Gemini 2.0 模型,支持所有公开...
阅读原文

元镜

元镜是基于人机共生引擎的AI视频创作系统,支持从创意灵感到成品视频实现高效创作。元镜基于自动化脚本生成、角色风格统一、多模态融合和智能工作流等功能,...
阅读原文

LazyLLM

LazyLLM 是开源的低代码平台,帮助开发者快速、低成本地构建多智能体大语言模型应用。通过极简的开发流程,支持一键式部署和跨平台操作,降低了 AI 应用开发...
阅读原文

SigLIP 2

SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。通过改进的训练方法和架构,显著增强了...
阅读原文

优雅YOYA

优雅(YOYA)是中科闻歌推出的多模态文生视频平台,通过AI多模态技术赋能视频内容创作全链路。平台以大语言模型和多模态大模型为核心,支持文本生成视频、图...
阅读原文

FlashMLA

FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA(Multi-Head Linear Attention)解码内核,专为处理可变长度序列设计。通过优化 KV...
阅读原文

MagicArticulate

MagicArticulate 是南洋理工大学和字节跳动Seed实验室推出的自动将静态 3D 模型转换为可动画化资产的框架。MagicArticulate基于自回归生成骨架,预测蒙皮权重...
阅读原文

Argon

Argon 是专注于为制药、生物技术和生命科学行业提供自动化和增强临床开发的智能解决方案平台。平台通过自然语言处理和专有数据库,能快速分析临床试验、生成...
阅读原文

Miss Dora

Miss Dora是AI儿童英文阅读应用,为3-8岁儿童提供AI互动故事。Miss Dora基于个性化的故事讲述和互动问答,激发孩子的阅读兴趣和想象力,能提升语言能力和思维...
阅读原文
1151617181962