标签:多语言支持

Linly-Dubbing

Linly-Dubbing是一个开源的智能视频多语言AI配音和翻译工具,能自动将视频内容翻译成多种语言,并生成字幕。通过WhisperX和FunASR进行精准语音识别,基于Edge...
阅读原文

Odyssey

Odyssey是一个好莱坞级的AI视频生成和编辑工具,OdysseyML提供技术支持,通过训练四个高级生成模型,专注于创造精细的几何图形、逼真的材质、震撼的光照效果...
阅读原文

Glyph-ByT5

Glyph-ByT5-v2由微软亚洲研究院、清华大学、北京大学和利物浦大学联合开发的多语言视觉文本渲染项目。Glyph-ByT5-v2支持10种不同语言的准确视觉文本渲染,审...
阅读原文

Llama-3.1-Minitron

Llama-3.1-Minitron是由英伟达和Meta合作开发的AI模型,通过剪枝和知识蒸馏技术从Llama 3.1 8B模型精炼而成的更小型4B参数模型。这种优化减少了模型大小和复...
阅读原文

Seed-ASR

Seed-ASR是字节跳动开发的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13...
阅读原文

Moffee

Moffee是开源的Markdown转PPT工具,支持用户使用Markdown语法快速创建专业的幻灯片。Moffee自动处理布局、分页和样式,支持实时预览和导出为PDF或HTML格式。
阅读原文

浦语灵笔

浦语灵笔IXC-2.5是上海人工智能实验室推出的新一代多模态大模型,具备7B规模的大型语言模型后端。能处理长达96K的长上下文,支持超高分辨率图像和细粒度视频...
阅读原文

新壹视频大模型

新壹视频大模型是新壹科技推出的AI视频创作大模型,自研AI算法和深度学习技术,实现从剧本到成品的一键式创作。具备剧本生成、情感化语音合成、3D元素创建和...
阅读原文

AskManyAI

AskManyAI是一站式AI大模型聚合平台,汇聚了众多顶尖AI模型,包括GPT、Claude、Kimi等,提供多角度的解答以提升问题解决的效率和可信度。用户可以通过AskMany...
阅读原文

TurboEdit

TurboEdit是Adobe Research 推出的AI即时图像编辑模型。通过编码器迭代反演和基于文本的精细控制,能够在几步内实现对图像的精确编辑。利用详细的文本提示,...
阅读原文

源2.0-M32

源2.0-M32是浪潮信息推出的拥有32个专家的混合专家模型(MoE)。采用创新的"Attention Router"技术,提高了模型选择专家的效率和准确性。模型总参数...
阅读原文

Ugic

Ugic是即时设计推出的Figma AI设计插件,能根据用户上传的组件库和设计系统,智能生成多语言的UI草稿。Ugic支持文本到结构的转换,允许用户输入PRD或描述文本...
阅读原文

NextChat

NextChat是一个基于 Next.js 和 Vercel 的开源项目,支持用户将 ChatGPT 等 AI 大模型集成到自己的网页应用中。NextChat不仅提供了现成的代码库,还支持一键...
阅读原文

HeadGAP

HeadGAP是字节跳动和上海科技大学共同推出的3D头像生成模型,仅用少量图片快速生成逼真的3D头像。采用先验学习和个性化创建阶段的框架,基于大规模多视角动态...
阅读原文

Bark

Bark是Suno AI 推出的开源文本到音频模型,能生成逼真的多语言语音和多种音频类型,包括音乐、背景噪音等,同时支持非语言交流如笑声和哭泣。Bark提供预训练...
阅读原文
1151617181935