AI项目和框架

Gemma 3 QAT

Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版本。通过量化感知训练技术,Gemma 3 QAT 在显著降低内存...
阅读原文

OpenUtau

OpenUtau 是开源的歌声合成工具,兼容 UTAU 音源库和重采样器,支持 VSQX 导入、多语言界面及预渲染功能,帮助创作者快速预览作品节省时间。OpenUtau现代化的...

SkyReels-V2

SkyReels-V2是昆仑万维SkyReels团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion-forcing)框架,结合多模态大语言模型(MLLM)、多阶段预训练、强...
阅读原文

GigaTok

GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜...
阅读原文

HumanRig

HumanRig 是阿里巴巴团队开发的 3D 人形角色自动绑定研究项目。解决现有绑定技术因缺乏高质量数据集而发展受限的问题,通过提供大规模、高质量的数据集和创新...
阅读原文

MineWorld

MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的token...
阅读原文

FastAPI-MCP

FastAPI-MCP 是将 FastAPI 应用的端点自动转换为符合模型上下文协议(MCP)的开源工具。具有零配置的特点,只需简单指向 FastAPI 应用可自动发现并转换所有端...
阅读原文

MAI-DS-R1

MAI-DS-R1 是微软基于 DeepSeek R1 改进的AI模型。MAI-DS-R1基于后训练优化,支持响应 99.3% 的敏感话题提示,比原版提升 2 倍,将有害内容风险降低 50%。MAI...
阅读原文

万相首尾帧模型

万相首尾帧模型(Wan2.1-FLF2V-14B)是开源的14B参数规模的首尾帧生视频模型。模型根据用户提供的首帧和尾帧图像,自动生成流畅的高清视频过渡效果,支持多种...
阅读原文

GoodWeBot

GoodWeBot 是开源的基于 RPA 技术开发的 AI 微信机器人, 支持一键免安装运行,用户下载后即可直接使用。工具已接入 Coze 等主流 AI,能实现智能回复、私聊群...
阅读原文

豆包1.5·UI-TARS

豆包1.5·UI-TARS是字节豆包推出的面向图形界面交互(GUI)的Agent模型。模型基于感知、推理和动作执行等类人能力,与图形界面进行连续、流畅的交互。模型将视...
阅读原文

Codex CLI

Codex CLI 是 OpenAI 推出的轻量级终端运行编码智能体。Codex CLI基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制。Codex CLI 支持代码...
阅读原文

Neural4D 2o

Neural4D 2o 是 DreamTech 推出的全球首个支持多模态交互的 3D 大模型。模型基于文本、图像、3D 和运动数据的联合训练,实现 3D 生成的上下文一致性、高精准...
阅读原文

BlenderMCP

BlenderMCP是将Blender与Claude AI基于模型上下文协议(MCP)集成的工具。BlenderMCP用socket服务器实现Blender与AI的双向通信,支持创建、修改和删除3D对象...
阅读原文

OpenAI o4-mini

OpenAI o4-mini 是OpenAI推出的小型推理模型,专为快速、经济高效的推理而优化。OpenAI o4-mini 在数学、编程和视觉任务方面表现出色,是 AIME 2024 和 2025 ...
阅读原文
11516171819122