AI项目和框架
Magenta RealTime 2
Magenta RealTime 2(MRT2)是谷歌 Magenta 团队推出的第二代开源本地实时音乐生成模型。MRT2 基于逐帧生成架构,每帧 40 毫秒,实现约 200 毫秒的实际控制延...
html-video
html-video 是 OpenDesign 团队(nexu.io)开源的HTML版剪映,基于 hyperframes 框架构建。工具让 Agent 通过写 HTML 可生成世界级水准的产品宣传、知识解说...
BrowserAct Skills
BrowserAct Skills 是面向 AI Agent 的浏览器自动化 CLI 工具,能解决 Agent 操控浏览器时的核心痛点,无 Cookie 环境、反爬拦截、验证码阻断、人机协作断层等。
Microsoft Scout
Microsoft Scout 是微软推出的 AI 个人助手,基于 OpenClaw 开源技术构建。工具拥有独立 Entra 身份,可在后台持续自主运行,无需用户逐次触发。
JoyAI-Echo
JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director Agent 对话式编辑和轻量化...
Ideogram 4
Ideogram 4 是 Ideogram 推出的首个开源文本到图像生成模型,拥有 93 亿参数,从头训练非基于现有模型微调。模型专为高质量图像生成而设计,尤其在设计、营销...
Science Skills
Science Skills 是谷歌 DeepMind 推出的开源科学技能集合,专为加速 AI Agent 驱动的科学研究工作流设计。工具整合 AlphaGenome、AlphaFold Database、UniPro...
MAI-Thinking-1
MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,完全基于干净、商业授权数据从头训练,未使用任...
MAI Transcribe-1.5
MAI-Transcribe-1.5 是 微软 AI 团队自研的语音转文本模型,支持 43 种语言,具备上下文感知的关键词偏置能力,模型在 FLEURS 基准测试中取得行业最低的词错...