AI项目和框架

MOCR

MOCR(Multimodal OCR)是华中科技大学与小红书hi lab联合推出的多模态文档解析模型,仅3B参数在文档解析和图形重建上实现突破性表现。
阅读原文

Suno v5.5

Suno V5.5 是Suno推出的 AI 音乐生成模型,标志着从"生成即完成"向"精细化制作"的重大转型。模型新增 Voices 声音定制、Custom Models ...
阅读原文

Gemini 3.1 Flash Live

Gemini 3.1 Flash Live是Google最新推出的高质量实时语音模型,专为自然流畅的对话交互设计。模型在语调理解、推理能力和响应速度上均有显著提升,能精准识别...
阅读原文

daVinci-MagiHuman

daVinci-MagiHuman 是上海创智学院 GAIR 实验室与 Sand.ai 联合开源的音视频联合生成基座模型。模型采用 150 亿参数的单流 Transformer 架构,统一建模文本、...
阅读原文

LongCat-Next

LongCat-Next是美团LongCat推出的多模态模型,核心创新是LoZA稀疏注意力机制。模型通过智能筛查模块重要性,将50%低重要模块替换为流式稀疏注意力,形成全局...
阅读原文

TurboQuant

TurboQuant 是 Google Research 推出的向量量化算法,可将大模型 KV Cache 从 32-bit 压缩至 3-bit,实现内存降低 6 倍、推理速度提升 8 倍,且精度零损失。
阅读原文

DataChef

DataChef是上海人工智能实验室与复旦大学联合开源的AI数据配方生成模型。模型通过强化学习自动生成大模型适配任务的完整数据处理流水线,包括数据选择、清洗...
阅读原文

Lyria 3 Pro

Lyria 3 Pro 是谷歌推出的 AI 音乐生成模型,支持创作最长 3 分钟的完整音轨,具备结构感知能力,可精准处理前奏、主歌、副歌、桥段等编曲要素。
阅读原文

OpenCLI

OpenCLI 是开源的命令行工具,能将任意网站和 Electron 桌面应用转化为命令行接口。工具通过 Chrome 浏览器扩展连接本地守护进程,复用用户已登录的账号权限...
阅读原文

Sub2API

Sub2API 是开源 AI API 中转网关平台,支持将 Claude、OpenAI、Gemini、Antigravity 等主流 AI 服务的订阅统一接入管理。平台提供多账号管理、API Key 分发、...
阅读原文

MiniMax Office Skills

MiniMax Office Skills 是稀宇科技开源的一套生产级办公文档引擎。工具包含四个核心组件,MiniMax-docx(Word)、MiniMax-xlsx(Excel)、MiniMax-pdf(PDF)...
阅读原文

DeerFlow 2.0

DeerFlow 2.0 是字节跳动开源的超级智能体框架,采用"主智能体+11层中间件链+动态子智能体"架构,通过LangGraph实现多智能体协同。框架内置深度研...
阅读原文

MAI-Image-2

MAI-Image-2 是微软 AI Superintelligence 团队推出的第二代文生图模型,目前在 Arena.ai 排行榜位列全球前三。模型主打三大核心能力:增强的照片级真实感、...
阅读原文

New API

New API 是新一代 AI 网关与资产管理系统,作为 AI 基座平台,提供统一基础设施接入全球 30+ 主流 AI 服务(OpenAI、Claude、Gemini、DeepSeek 等)。
阅读原文

PrismAudio

PrismAudio 是阿里通义实验室推出的视频生成音频(Video-to-Audio)框架,可为无声视频自动配上环境音效。模型首创"分解式思维链"技术,让模型先思...
阅读原文
17891011186