标签:自然语言处理

LTXV-13B

LTXV-13B 是Lightricks推出的开源 AI 视频生成模型,拥有 130 亿参数。具备极高的生成速度,比同类产品快 30 倍,能在普通消费级显卡(如 4090/5090)上运行...
阅读原文

Mogao

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解...
阅读原文

FlowGram.AI

FlowGram 是字节跳动开源的基于节点编辑的前端流程搭建引擎,帮助开发者快速构建固定布局或自由连线布局的工作流。支持两种布局模式:固定布局适合顺序工作流...
阅读原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
阅读原文

Avatar IV

Avatar IV 是 HeyGen 推出的数字人模型,用在快速创建逼真视频。用户只需上传一张照片和一段脚本或音频,能生成自然流畅的视频。模型基于音频驱动的表情引擎...
阅读原文

oli

oli 是开源的智能代码助手,支持为开发者提供强大的编程支持。基于现代化的混合架构,结合 Rust 后端的高性能和 React/Ink 前端的交互式终端界面。oli 支持多...
阅读原文

Mistral Medium 3

Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近甚至达到Claude Sonnet 3.7模型的性能水平,成本仅为后者的1/8(每...
阅读原文

Ztalk.ai

Ztalk.ai 是AI桌面应用程序,专注于实时语音翻译。支持超过30种语言,延迟小于100毫秒,能与Zoom、Google Meet、Teams等主流视频会议工具无缝集成。
阅读原文

Open Computer Agent

Open Computer Agent 是 Hugging Face 推出的免费云端 AI Agent 工具。支持在 Linux 虚拟机中运行,基于预装的程序(如 Firefox)完成用户指定的任务,例如用...
阅读原文

Absolute Zero

Absolute Zero是清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学推出的全新语言模型推理训练方法。Absolute Zero基于模型...
阅读原文

FlexiAct

FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体上,在空间结构差异较...
阅读原文

mrge

mrge 是高效智能的 AI 代码审查平台,专为提升开发团队的代码质量和审查效率设计。通过 AI 自动审核代码,快速发现潜在缺陷、安全漏洞和性能问题,显著节省开...
阅读原文

Klavis AI

Klavis AI 是一个开源的 MCP(Multimodal Communication Protocol,多模态通信协议)集成平台,帮助 AI 应用快速接入生产级的 MCP 服务器和客户端。平台提供...
阅读原文

Granite 4.0 Tiny Preview

Granite 4.0 Tiny Preview 是 IBM 推出的 Granite 4.0 语言模型家族中最小的模型的预览版本。Granite 4.0 Tiny Preview用极高的计算效率和紧凑的模型结构为特...
阅读原文

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破...
阅读原文
13456766