标签:多语言支持

OmniTalker

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 T...

DeepSeek-GRM

DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型(Generalist Reward Modeling)。通过点式生成式奖励建模(Pointwise Generative Reward Mod...
阅读原文

OlympicArena

OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。OlympicArena包...
阅读原文

BabelDOC

BabelDOC 是开源的智能 PDF 翻译工具,专为科学论文翻译设计。能在原文旁生成翻译文本,形成双语对照,无需切换窗口,方便阅读。能完整保留数学公式、表格和...

枝页

枝页(iBleaf)是基于金字塔原理设计的AI笔记工具,帮助用户将碎片化的知识整理成清晰有序的知识体系。通过知识树的形式,让用户能以层级化的结构组织笔记,...
阅读原文

面灵AI

面灵AI是基于DeepSeek大模型的AI面试助手,专为求职者设计,提升面试表现。具备实时面试辅助功能,能在面试中快速解析问题并给出专业回答建议,能根据简历和...
阅读原文

Dolphin

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含...
阅读原文

Translate Image

Translate Image 是免费的在线 AI 图片翻译工具,专为需要快速翻译图片中文字的用户设计。支持多种图片格式(如 JPG、PNG、JPEG 等),可处理产品图片、电商...
阅读原文

Actor Mode

Actor Mode 是 ElevenLabs 推出的AI语音生成工具,支持用户通过自己的声音指导 AI 生成语音内容。用户只需录制一段音频或上传已有音频文件,AI 能分析其语调...
阅读原文

Neo-1

Neo-1 是 VantAI 推出的全球首个将从头分子生成与原子级结构预测统一的AI模型。能预测生物分子结构,生成全新的分子,在设计分子胶等新型治疗药物方面表现出...
阅读原文

OpenDeepSearch

OpenDeepSearch 是开源的深度搜索工具,基于开源推理模型和推理代理提升搜索性能,专为  Hugging Face 的 SmolAgents 无缝集成进行优化,支持深度网络搜索和...
阅读原文

Elmo Chat

Elmo Chat 是 Lepton AI 推出的 Chrome 扩展工具,基于AI技术简化用户对各类内容的理解和处理。Elmo Chat能快速总结网页、YouTube 视频、Google 文档和 PDF ...
阅读原文

MegaTTS 3

MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语音分解为内容、音...
阅读原文

PaddleSpeech

PaddleSpeech 是百度飞桨团队开源的语音处理工具,提供全面的语音处理功能,包括语音识别、语音合成、声纹识别、语音翻译等。PaddleSpeech提供命令行界面、服...
阅读原文

TripoSG

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流(Rectified Flow, RF)模型的高保真 3D 形状合成技术, 通过大规模修正流变换器架构、混合监督训练...
阅读原文
18910111261