AI项目和框架

豆包音频生成模型1.0

豆包音频生成模型1.0是火山引擎推出的端到端音频创作模型,支持文本或音频作为参考输入生成目标音频。模型单条Prompt可编排多角色对白、情绪语气、背景音乐与...
阅读原文

Baichuan-M4

Baichuan-M4是百川智能联合清华大学推出的新一代医疗增强大模型,在 HealthBench 综合、Hard、Professional 三个权威榜单同时位列世界第一,幻觉率低至 3.3% ...
阅读原文

Unlimited-OCR

Unlimited-OCR 是百度推出的端到端长文档 OCR 模型,通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数,实现单次前向转...
阅读原文

Seedance 2.5

Seedance 2.5 是字节跳动旗下豆包视频生成模型的最新旗舰版本,预计 7 月初全面上线。作为 Seedance 2.0 的重大升级,模型实现了三大全球突破,单段原生视频...
阅读原文

AudioX-Turbo

AudioX-Turbo 是 Noiz AI 联合香港科技大学、清华大学推出的统一高效音频生成框架,支持文本、视频、音频任意组合输入生成高质量音效与音乐。
阅读原文

Boogu-Image-0.1

Boogu-Image-0.1 是 Boogu 团队开源的统一图像生成与编辑模型家族。模型在同一架构下同时支持文生图、指令式图像编辑及中英双语文本渲染,家族包含 Base、Edi...
阅读原文

Spatial-TTT

Spatial-TTT 是清华大学、腾讯混元与南洋理工大学联合推出的流式视觉空间智能框架。框架仅 2B 参数,通过 Test-Time Training(TTT)技术,在观看视频流的过...
阅读原文

豆包2.1

豆包2.1 是字节跳动面向 Coding 与 Agent 时代打造的新一代深度思考大模型,提供 Pro、Turbo 和 Evolving 三个版本,在 Coding 工程交付、Agent 长链路任务执...
阅读原文

SpatialClaw

SpatialClaw 是 NVIDIA Research 与 KAIST 联合推出的免训练空间推理框架,通过代码即动作机制在持久化 Python 内核中迭代执行复杂 3D/4D 空间推理任务,在 2...
阅读原文

Xiaomi Miloco 2.0

Xiaomi Miloco 2.0 是小米基于 MiMo-V2.5-Pro 大模型推出的开源全屋智能 AI 方案,通过 OpenClaw 以 Agent 形式接入,实现多模态感知、主动智能、持续任务与...
阅读原文

Sakana Fugu

Sakana Fugu是Sakana AI推出的多智能体编排系统,用单一API动态调度顶尖模型。系统分配思考者、执行者与验证者角色,自动完成选择、委派与合成,无需预设工作...
阅读原文

VidMuse

VidMuse 是 Sand.ai 推出的 AI 音乐视频 Agent。用户只需上传 Suno 链接或 MP3 文件,可自动生成 30–60 秒的音乐视频。VidMuse 2.0 基于Video as Code理念,...
阅读原文

HappyHorse 1.1

HappyHorse 1.1是阿里最新上线的AI视频生成模型升级版,较 1.0 版本在动态表现力、主体一致性、指令遵循、视觉质感和音频能力五大维度实现系统性升级。
阅读原文

Skill Zoo

Skill Zoo 是面向 Coding Agent 的一站式桌面技能管理工具。工具通过 SSOT+ 软链接架构,统一管理分散在 Claude Code、Codex、Trae CN、Hermes 等编程工具中...
阅读原文

Agently Mail

Agently Mail 是腾讯QQ邮箱团推出的AI Agent专属邮箱服务,与个人邮箱完全隔离,原生适配Agent框架。Agent可通过微信扫码授权获得独立邮箱地址,安全地收发邮...
阅读原文
123199