AI项目和框架

HTML Anything

HTML Anything 是 nexu-io 团队开源的 Agent 时代 HTML 编辑器,内置 75 套 Skill 模板覆盖杂志、演示、海报、小红书卡片等 9 种交付形态,可自动识别本地 18...
阅读原文

DSpark

DSpark 是 DeepSeek 联合北京大学开源的推测解码加速框架,专门解决大模型自回归生成速度慢、像"挤牙膏"的痛点。采用半自回归生成架构,通过轻量级...
阅读原文

GPT-5.6

GPT-5.6 是 OpenAI 推出的最新一代大语言模型,目前受美国政府监管要求仅以"有限预览"形式向少数可信合作伙伴开放。系列首次采用天文学命名体系,...
阅读原文

PhoneBuddy

PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型,核心研究如何在真实手机场景中训练可用的 AI Agent。
阅读原文

Mistral OCR 4

Mistral OCR 4 是 Mistral AI 推出的最新一代文档理解模型。模型支持从 PDF、图片、演示文稿等复杂文档中提取文本,能返回带边框定位、区域类型分类和置信度...
阅读原文

Agent Mail

Agent Mail 是腾讯QQ邮箱推出的AI Agent专属邮箱服务,与个人邮箱完全隔离,原生适配Agent框架。Agent可通过微信扫码授权获得独立邮箱地址,安全地收发邮件、...
阅读原文

Ornith-1.0

Ornith-1.0 是 DeepReinforce 团队推出的专为 Agentic 编程任务设计的开源大模型系列,模型基于 Gemma 4 与 Qwen 3.5 预训练基座,采用自改进训练框架,在代...
阅读原文

SkillOpt

SkillOpt是微软开源的Agent技能文档优化工具。工具将深度学习训练逻辑引入文本空间,把skill.md视为可训练参数,通过轨迹分析生成编辑方向,用文本学习率约束...
阅读原文

Confucius4-TTS

Confucius4-TTS 是网易有道开源的 1.3B 参数多语言语音合成引擎。模型只需 3 秒参考音频可零样本克隆音色,无需参考文本,支持中、英、日、韩等 14 种语言跨...
阅读原文

MMSkills

MMSkills 是上海交通大学与小红书联合推出的面向通用视觉 Agent 的多模态技能框架,支持将可复用技能从纯文本步骤扩展为包含文本流程、运行时状态卡片和多视...
阅读原文

JoyAI-VL-Interaction

JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型,是全球首个全栈开源的 interaction 模型系统。
阅读原文

Qwen-AgentWorld

Qwen-AgentWorld 是通义千问团队推出的首个语言世界模型,通过长思维链推理模拟 MCP、搜索、终端、软件工程、Android、Web、操作系统共 7 大智能体环境。
阅读原文

豆包音频生成模型1.0

豆包音频生成模型1.0是火山引擎推出的端到端音频创作模型,支持文本或音频作为参考输入生成目标音频。模型单条Prompt可编排多角色对白、情绪语气、背景音乐与...
阅读原文

Baichuan-M4

Baichuan-M4是百川智能联合清华大学推出的新一代医疗增强大模型,在 HealthBench 综合、Hard、Professional 三个权威榜单同时位列世界第一,幻觉率低至 3.3% ...
阅读原文

Unlimited-OCR

Unlimited-OCR 是百度推出的端到端长文档 OCR 模型,通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数,实现单次前向转...
阅读原文
123199