AI项目和框架

WebWorld

WebWorld 是阿里巴巴 Qwen 团队开源的大规模网页世界模型系列,基于 Qwen3 底座训练,包含 8B、14B、32B 三个版本。模型通过在模拟浏览器环境中预测网页状态...
阅读原文

TACO

TACO 是曼彻斯特大学、北京航空航天大学、香港科技大学以及MAP 团队开源的无需训练、即插即用的终端智能体自进化观测压缩框架。
阅读原文

SkillClaw

SkillClaw 是 AMAP-ML(高德地图机器学习团队)开源的 AI Agent 技能集体进化框架。框架通过本地 API 代理拦截 Agent 会话,在后台自动从真实交互中提取、去...
阅读原文

GPT-5.5-Cyber

GPT-5.5-Cyber 是 OpenAI 推出的网络安全专用模型,面向经身份验证的防御者提供有限预览。模型基于 GPT-5.5 构建,通过可信网络访问框架降低安全限制,支持漏...
阅读原文

StepAudio 2.5 Realtime

StepAudio 2.5 Realtime 是阶跃星辰推出的端到端实时语音大模型,主打真人级语音对话体验。模型支持内容层面的深度交互,在声音表现力上完全贴近真人,具备顶...
阅读原文

Ring-2.6-1T

Ring-2.6-1T是蚂蚁百灵推出的万亿参数深度推理模型,属于Ring系列,专注数学竞赛、代码生成等复杂认知任务的慢思考能力。模型采用MoE混合专家架构,在高参数...
阅读原文

文心 5.1

文心5.1(ERNIE 5.1)是百度推出的旗舰大语言模型,基于文心5.0知识蒸馏与Once-for-All弹性训练框架,将预训练成本降至业界同规模模型的6%。
阅读原文

Doubao-Seed-2.0-lite

Doubao-Seed-2.0-lite 是字节跳动豆包团队推出的首款全模态理解模型。模型支持视频、图像、音频、文本的原生统一理解,同步升级了 Agent、Coding 与 GUI 能力。
阅读原文

GPT-Realtime-Translate

GPT-Realtime-Translate 是 OpenAI 推出的实时语音翻译模型,支持 70 余种输入语言实时翻译为 13 种输出语言,采用端到端架构直接处理原始音频,跳过文字中间...
阅读原文

GPT-Realtime-Whisper

GPT-Realtime-Whisper 是 OpenAI 推出的流式语音转文字模型,基于 Whisper 架构升级而来,能在用户说话的同时实时输出文字,延迟极低。
阅读原文

GPT-Realtime-2

GPT-Realtime-2 是 OpenAI 推出的第二代实时语音模型,是目前 Realtime API 中推理能力最强的语音 Agent。模型具备 GPT-5 级推理能力,能在语音对话中边听边...
阅读原文

SenseNova 6.7 Flash-Lite

SenseNova 6.7 Flash-Lite是商汤科技推出的新一代轻量化多模态智能体模型,采用原生多模态架构,专为真实世界工作流设计。
阅读原文

Grok Voice Think Fast 1.0

Grok Voice Think Fast 1.0是xAI推出的旗舰级语音智能体模型,专攻复杂多步骤真实场景。模型在τ-voice Bench排名第一,支持25种语言与全双工对话,具备低延迟...
阅读原文

Realtime TTS-2

Realtime TTS-2 是 Inworld AI 推出的新一代实时语音合成模型,专为对话式 AI 场景打造。模型能将文本转为自然语音,更能"听懂"对话上下文的音频情...
阅读原文

skill-creator

skill-creator 是 Anthropic 官方推出的「元 Skill」,专为创建、迭代和优化其他 Agent Skills 设计。skill-creator通过交互式引导,将 Skill 开发的全流程——...
阅读原文
123188