标签:多语言支持

UniTalker

UniTalker是推出的音频驱动3D面部动画生成模型,能根据输入的音频生成逼真的面部动作。采用统一的多头架构模型,用带有不同标注的数据集,支持多语言和多种音...
阅读原文

Grok-2

Grok-2是xAI公司推出的新一代AI模型,提供卓越的聊天、编程和推理能力。在学术基准测试中,Grok-2在GPQA、MMLU、MMLU-Pro和MATH等领域的表现超越了前代Grok-1...
阅读原文

晓象

晓象是光启慧语推出的AI克隆产品,基于自研可信大模型,创建各领域知识博主的AI分身。模拟知识博主的声音、风格和表达方式,生成个性化的内容。
阅读原文

微博嘴替

微博嘴替是一个微博账户AI趣味分析应用,专为微博用户设计。微博嘴替通过分析用户的微博资料和内容,生成犀利、幽默风趣和个性化的吐槽。
阅读原文

Boogie AI

Boogie AI是一款AI跳舞软件,使用AI技术将用户上传的照片转化为舞蹈视频。自发布以来,Boogie AI迅速在美国iOS端免费应用排行榜上升至第18位,并在一个月内下...
阅读原文

LabelU

LabelU 是一款开源的多模态数据标注工具,支持图像、视频和音频的标注,具备拉框、多边形、标点、标线、分类、描述等图像标注能力,能满足目标检测、图像分类...
阅读原文

Subtitle Edit

Subtitle Edit是一款免费开源的多功能字幕编辑器,支持超过300种字幕格式,包括SRT、MicroDVD和Sub Station Alpha等。具备字幕同步、创建、翻译、音频波形可...
阅读原文

神采PromeAI

神采PromeAI是一款专为设计师打造的AI设计助手。适合建筑师、室内设计师、产品设计师和游戏动漫设计师使用,通过强大的AIGC模型风格库,用户能通过简单的文字...
阅读原文

Linly-Dubbing

Linly-Dubbing是一个开源的智能视频多语言AI配音和翻译工具,能自动将视频内容翻译成多种语言,并生成字幕。通过WhisperX和FunASR进行精准语音识别,基于Edge...
阅读原文

Odyssey

Odyssey是一个好莱坞级的AI视频生成和编辑工具,OdysseyML提供技术支持,通过训练四个高级生成模型,专注于创造精细的几何图形、逼真的材质、震撼的光照效果...
阅读原文

Glyph-ByT5

Glyph-ByT5-v2由微软亚洲研究院、清华大学、北京大学和利物浦大学联合开发的多语言视觉文本渲染项目。Glyph-ByT5-v2支持10种不同语言的准确视觉文本渲染,审...
阅读原文

Llama-3.1-Minitron

Llama-3.1-Minitron是由英伟达和Meta合作开发的AI模型,通过剪枝和知识蒸馏技术从Llama 3.1 8B模型精炼而成的更小型4B参数模型。这种优化减少了模型大小和复...
阅读原文

Seed-ASR

Seed-ASR是字节跳动开发的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13...
阅读原文

Moffee

Moffee是开源的Markdown转PPT工具,支持用户使用Markdown语法快速创建专业的幻灯片。Moffee自动处理布局、分页和样式,支持实时预览和导出为PDF或HTML格式。
阅读原文

浦语灵笔

浦语灵笔IXC-2.5是上海人工智能实验室推出的新一代多模态大模型,具备7B规模的大型语言模型后端。能处理长达96K的长上下文,支持超高分辨率图像和细粒度视频...
阅读原文
15678926