AI项目和框架 - 第 5 页

虎牙VAM 1.0

虎牙VAM 1.0（Vivid Avatar Model）是虎牙推出的基于DiT架构的实时多模态数字人基础模型，一张照片可生成能说话、能唱歌跳舞的AI数字人。

阅读原文

AI工具

2周前

Wan-Streamer

Wan-Streamer 是阿里达摩院开源的端到端实时全双工多模态基础模型，通过统一因果 Transformer 架构将文本、音频、视频的输入输出 token 整合为同一条因果序列...

阅读原文

AI工具

2周前

BrowserBC

BrowserBC 是 Einsia AI 旗下 Navers Lab 发布的开源项目，核心目标是将人类在浏览器中的操作轨迹转化为可复用的自然语言技能（Skill），让 Web Agent 能&quo...

阅读原文

AI工具

2周前

Krea 2

Krea 2 是 Krea AI 推出的首个从零训练的基础图像生成模型，定位为"美学优先"的创意协作者。专注于视觉美学一致性、风格迁移和创意控制，而非单纯...

阅读原文

AI工具

2周前

HTML Anything

HTML Anything 是 nexu-io 团队开源的 Agent 时代 HTML 编辑器，内置 75 套 Skill 模板覆盖杂志、演示、海报、小红书卡片等 9 种交付形态，可自动识别本地 18...

阅读原文

AI工具

2周前

DSpark

DSpark 是 DeepSeek 联合北京大学开源的推测解码加速框架，专门解决大模型自回归生成速度慢、像"挤牙膏"的痛点。采用半自回归生成架构，通过轻量级...

阅读原文

AI工具

2周前

GPT-5.6

GPT-5.6 是 OpenAI 推出的最新一代大语言模型，目前受美国政府监管要求仅以"有限预览"形式向少数可信合作伙伴开放。系列首次采用天文学命名体系，...

阅读原文

AI工具

2周前

PhoneBuddy

PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型，核心研究如何在真实手机场景中训练可用的 AI Agent。

阅读原文

AI工具

3周前

Mistral OCR 4

Mistral OCR 4 是 Mistral AI 推出的最新一代文档理解模型。模型支持从 PDF、图片、演示文稿等复杂文档中提取文本，能返回带边框定位、区域类型分类和置信度...

阅读原文

AI工具

3周前

Agent Mail

Agent Mail 是腾讯QQ邮箱推出的AI Agent专属邮箱服务，与个人邮箱完全隔离，原生适配Agent框架。Agent可通过微信扫码授权获得独立邮箱地址，安全地收发邮件、...

阅读原文

AI工具

3周前

Ornith-1.0

Ornith-1.0 是 DeepReinforce 团队推出的专为 Agentic 编程任务设计的开源大模型系列，模型基于 Gemma 4 与 Qwen 3.5 预训练基座，采用自改进训练框架，在代...

阅读原文

AI工具

3周前

SkillOpt

SkillOpt是微软开源的Agent技能文档优化工具。工具将深度学习训练逻辑引入文本空间，把skill.md视为可训练参数，通过轨迹分析生成编辑方向，用文本学习率约束...

阅读原文

AI工具

3周前

Confucius4-TTS

Confucius4-TTS 是网易有道开源的 1.3B 参数多语言语音合成引擎。模型只需 3 秒参考音频可零样本克隆音色，无需参考文本，支持中、英、日、韩等 14 种语言跨...

阅读原文

AI工具

3周前

MMSkills

MMSkills 是上海交通大学与小红书联合推出的面向通用视觉 Agent 的多模态技能框架，支持将可复用技能从纯文本步骤扩展为包含文本流程、运行时状态卡片和多视...

阅读原文

AI工具

3周前

JoyAI-VL-Interaction

JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型，是全球首个全栈开源的 interaction 模型系统。

阅读原文

AI工具

3周前