标签:多语言支持

SuperEdit

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperE...
阅读原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
阅读原文

KuaiMod

KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动...
阅读原文

WebThinker

WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行...
阅读原文

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开源的创新大模型搜索引擎框架,基于强化学习激励大模型的搜索能力,无需与真实搜索引擎交互。框架爱基于大模型预训练知识,...
阅读原文

Avatar IV

Avatar IV 是 HeyGen 推出的数字人模型,用在快速创建逼真视频。用户只需上传一张照片和一段脚本或音频,能生成自然流畅的视频。模型基于音频驱动的表情引擎...
阅读原文

Smart PDFs

Smart PDFs 是免费开源的 AI 驱动 PDF 文档总结工具,能快速将 PDF 文档中的关键信息整理为清晰的章节式总结,支持学术论文、行业报告或技术文档,能在数秒内...
阅读原文

Ztalk.ai

Ztalk.ai 是AI桌面应用程序,专注于实时语音翻译。支持超过30种语言,延迟小于100毫秒,能与Zoom、Google Meet、Teams等主流视频会议工具无缝集成。
阅读原文

Absolute Zero

Absolute Zero是清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学推出的全新语言模型推理训练方法。Absolute Zero基于模型...
阅读原文

mrge

mrge 是高效智能的 AI 代码审查平台,专为提升开发团队的代码质量和审查效率设计。通过 AI 自动审核代码,快速发现潜在缺陷、安全漏洞和性能问题,显著节省开...
阅读原文

Klavis AI

Klavis AI 是一个开源的 MCP(Multimodal Communication Protocol,多模态通信协议)集成平台,帮助 AI 应用快速接入生产级的 MCP 服务器和客户端。平台提供...
阅读原文

ICEdit

ICEdit(In-Context Edit)是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器(Diffusion Transformer)的强大生成能力和上下文感知能力...
阅读原文

Granite 4.0 Tiny Preview

Granite 4.0 Tiny Preview 是 IBM 推出的 Granite 4.0 语言模型家族中最小的模型的预览版本。Granite 4.0 Tiny Preview用极高的计算效率和紧凑的模型结构为特...
阅读原文

Amazon Nova Premier

Amazon Nova Premier 是亚马逊推出功能最强大的多模态 AI 模型,能处理文本、图像和视频输入(不包括音频),擅长处理需要深度理解上下文、多步骤规划以及跨...
阅读原文

NoteLLM

NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能...
阅读原文
13456761