标签:多语言支持

PaddleSpeech

PaddleSpeech 是百度飞桨团队开源的语音处理工具,提供全面的语音处理功能,包括语音识别、语音合成、声纹识别、语音翻译等。PaddleSpeech提供命令行界面、服...
阅读原文

TripoSG

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流(Rectified Flow, RF)模型的高保真 3D 形状合成技术, 通过大规模修正流变换器架构、混合监督训练...
阅读原文

TripoSF

TripoSF是VAST推出的新一代3D基础模型,突破传统3D建模在细节、复杂结构和扩展性上的瓶颈。采用SparseFlex表示方法,结合稀疏体素结构,仅在物体表面附近的区...
阅读原文

MeshifAI

MeshifAI 是AI文本转 3D 模型生成平台,能根据用户输入的文本提示快速生成 3D 模型,支持生成简单模型和纹理模型(PBR)两种类型,生成的模型为 .glb 格式,...
阅读原文

ModelEngine

ModelEngine 是华为开源的全流程 AI 开发工具链,围绕数据使能、模型使能和应用使能三大核心功能展开,解决 AI 行业化落地过程中数据工程耗时长、模型训练和...
阅读原文

Ideogram 3.0

Ideogram 3.0 是Ideogram推出的 AI 图像生成模型。Ideogram 3.0在图像生成质量上实现飞跃,具备高度的真实感、出色的文本渲染和强大的语言理解能力,支持生成...
阅读原文

Qwen2.5-Omni

Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5-Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持流式文...
阅读原文

Cosmos-Reason1

Cosmos-Reason1 是 NVIDIA 推出的一系列多模态大型语言模型,基于物理常识和具身推理理解物理世界。Cosmos-Reason1包括两个模型:Cosmos-Reason1-8B 和 Cosmo...
阅读原文

Mureka O1

Mureka O1是昆仑万维发布的全球首款音乐推理大模型,全球首个引入“思维链”(Chain of Thought,CoT)技术的音乐模型,Mureka O1在推理过程中加入思考与自我批...
阅读原文

Browseragent

Browseragent是基于浏览器的AI自动化工具,直接在浏览器中创建和运行AI工作流,无需API调用费用,实现零成本的无限次执行。Browseragent基于无代码可视化编辑...
阅读原文

Fluently

Fluently 是 AI英语学习应用,帮助用户提升英语水平。Fluently基于评估用户的英语能力,生成个性化学习计划,涵盖发音、语法、词汇和流利度等方面。用户在真...
阅读原文

LHM

LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何...

Bobby

Bobby是新加坡金融科技公司RockFlow推出的全球首个金融AI投资伙伴。通过深度学习与自然语言交互技术,能理解用户的投资需求提供个性化服务。用户可以用自然语...
阅读原文

Motia

Motia 是专为软件工程师设计的 AI Agent 框架,简化 AI 智能体的开发、测试和部署过程。支持多种编程语言,如 Python、TypeScript 和 Ruby,开发者可以使用熟...
阅读原文

LongCat

LongCat(龙猫)是美团自主研发的生成式大语言模型,通过人工智能技术提升公司内部工作效率和创新能力。模型具备强大的多模态能力,能处理文本、图像等多种数...
12351