AI项目和框架 - 第 3 页

GPT-Realtime-2.1

GPT-Realtime-2.1是OpenAI推出的新一代实时语音模型。2.1旗舰版显著提升了字母数字识别、静音噪音处理及中断响应能力，支持语音、文本和图像输入，具备强大推...

阅读原文

AI工具

1周前

Fun-ASR-Realtime

Fun-ASR-Realtime 是阿里千问推出的流式实时语音识别大模型。模型通过 WebSocket 流式协议实现边说边出字，首字延迟百毫秒，尾字延迟同样极低。

阅读原文

AI工具

1周前

Hy3

Hy3 是腾讯混元开源的 295B 参数混合专家（MoE）模型。模型在 Agent 能力、推理与长上下文任务上显著进步，多项基准比肩参数规模 2-5 倍的旗舰模型。

阅读原文

AI工具

1周前

Claude

FuckClaude 是轻量、SEO 友好、中英双语的单页浏览器检测工具，用于扫描用户的浏览器环境并判断其是否会被 Claude Code 标记为"中国用户"。点击运...

阅读原文

AI工具

1周前

Elements Claw

ElementsClaw 是阿里达摩院联合中国人民大学、中国科学院大学推出的行业首个超导材料发现 AI 智能体，采用专通融合架构，将 10 亿参数原子基础模型 Elements ...

阅读原文

AI工具

1周前

Leanstral 1.5

Leanstral 1.5 是 Mistral AI 开源的形式化验证大模型，专为 Lean 4 自动定理证明优化。模型采用 119B 参数 MoE 架构，支持 256k 超长上下文与图文输入。

阅读原文

AI工具

1周前

ComAct

ComAct（COM-as-Action）是重新定义专业软件自动化操作的研究范式，由Jiaxin Ai等人提出。范式将Windows的Component Object Model（COM）识别为统一的可执行...

阅读原文

AI工具

1周前

Page Agent

Page Agent 是阿里巴巴开源的纯前端 JavaScript 智能体库，通过一行代码嵌入网页，可让用户用自然语言操控页面 DOM 元素。

阅读原文

AI工具

1周前

EdgeBench

EdgeBench 是字节跳动 Seed 团队推出的基准测试框架，用于评估自主 AI Agent 在真实世界环境中的长期学习能力。

阅读原文

AI工具

1周前

Vidu S1

Vidu S1 是生数科技推出的全球领先实时交互视频基础模型，标志着 AI 视频从离线生成迈入实时双向互动时代。基于自回归扩散架构，支持 540P 分辨率、25FPS（最...

阅读原文

AI工具

1周前

AReaL 2.0

AReaL 2.0是蚂蚁联合香港科技大学、清华大学开源的Agent在线强化学习基础架构，能让已部署的Agent从真实交互轨迹中持续自我演进。

阅读原文

AI工具

1周前

Ego Lite

Ego Lite 是基于 Chromium 的人与 AI 智能体并行协作的浏览器。Ego Lite是为 AI Agent 提供底层浏览器操作能力的基础设施。

阅读原文

AI工具

1周前

video-use

Video-use 是 Browser Use 团队开源的 AI 视频剪辑 Agent，通过自然语言对话替代传统时间线操作。用户只需将原始素材放入文件夹并描述需求，Agent 自动完成素...

阅读原文

AI工具

2周前

TabFM

TabFM 是 Google Research 推出的零样本表格基础模型，支持对混合数值与类别特征的结构化数据进行分类（最多10类）和回归。模型在数百亿合成表格数据上训练，...

阅读原文

AI工具

2周前

SemanticAudio

SemanticAudio 是香港中文大学、LIGHTSPEED、上海交通大学联合推出的音频生成与编辑框架。框架将文本到音频生成拆分为"语义规划"与"声学合成&...

阅读原文

AI工具

2周前