标签:多语言支持

PDF2Audio

PDF2Audio 是一个开源工具,能将 PDF 文档转换成音频内容,适合制作播客、讲座或摘要。它基于 OpenAI 的 GPT 模型生成播客脚本,通过文本到语音技术转化为音频。
阅读原文

Comic Translate

Comic Translate 是一个开源的漫画翻译工具,由开发者 ogkalu2 推出。帮助用户自动翻译全球各地的漫画,支持英语、韩语、日语、法语、简体中文、繁体中文、俄...
阅读原文

PearAI

PearAI 是一个开源的 AI 驱动的代码编辑器,基于 Visual Studio Code (VSCode) 开发。PearAI 集成AI技术,减少编程工作量提高开发效率。PearAI 支持开发者直...
阅读原文

Westlake-Omni

Westlake-Omni 是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型。模型采用离散表示法,统一文本和语音模态的处理,特别强调实时性,快速响应用户...
阅读原文

AutoGen Studio

AutoGen Studio 是微软研究院推出的一款开源界面工具,旨在简化多智能体系统的构建、调试和评估过程。AutoGen Studio提供一个基于 Web 的交互式界面和 Python...
阅读原文

MemFree

MemFree是一款开源的混合AI搜索引擎,通过整合多种AI模型和搜索引擎,提供高效、多样化的搜索体验。可以用文本、图像、文件和网页等多种方式进行搜索和提问,...
阅读原文

I2VEdit

I2VEdit是一个先进的视频编辑框架,通过图像到视频的扩散模型实现首帧引导的视频编辑。用户只需编辑视频的第一帧,I2VEdit能自动将编辑效果应用到整个视频。
阅读原文

AMD-135M

AMD-135M是AMD推出的首款小型语言模型(SLM),为特定用例提供性能与资源消耗之间的平衡。基于LLaMA2模型架构,在AMD Instinct MI250加速器上训练,基于670亿...
阅读原文

JoyHallo

JoyHallo 是京东开源的AI数字人模型,专为普通话设计,能根据音频生成逼真的说话视频。特别适合处理普通话的复杂口型和语调,具有跨语言生成视频的能力。
阅读原文

Phidias

Phidias是一个先进的3D内容生成模型,将检索增强生成(RAG)的概念引入到3D建模领域。模型能基于用户提供的或从大型数据库中检索到的3D参考模型,辅助生成新...
阅读原文

summarize.tech

Summarize.tech 是一个由AI驱动的在线服务,为YouTube上的长视频生成简短的文字摘要。 非常适合需要快速了解视频内容核心的用户,如讲座、活动或会议记录。用...
阅读原文

RTranslator

RTranslator 是一款开源、免费、离线实时翻译应用程序,专为 Android 设备设计。基于先进的AI技术,包括 Meta 的 NLLB 翻译模型和 OpenAI 的 Whisper 语音识...
阅读原文

Molmo 72B

Molmo 72B是由艾伦人工智能研究所(Ai2)推出的一个开源多模态AI模型,专门设计用于处理和理解图像和文本数据。基于Qwen2-72B模型,使用OpenAI的CLIP作为视觉...
阅读原文

TeleChat2-115B

TeleChat2-115B是由中国电信人工智能研究院(TeleAI)研发的大型语言模型,属于星辰语义大模型系列。基于国产算力进行训练,采用10万亿Tokens的中英文高质量...
阅读原文

Sider

Sider是一款集成多种先进AI模型的多功能浏览器扩展程序,能在Chrome/Edge扩展,浏览、阅读和写作更容易,帮助用户在日常工作流程中提高效率。Sider支持在网页...
阅读原文
1111213141526