AI项目和框架

REFRAG

REFRAG是Meta超级智能实验室推出的针对检索增强生成(RAG)任务的高效解码框架,通过“压缩(Compress)、感知(Sense)、扩展(Expand)”的流程优化大型语言...
阅读原文

XTuner V1

XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,基于 PyTorch FSDP 开发,针对超大模型训练中的显存、通信和负载问题进行系统性优化,支持 1T ...
阅读原文

Qwen3-ASR-Flash

Qwen3-ASR-Flash 是通义千问系列最新语音识别模型,基于 Qwen3 基座模型,经海量多模态及 ASR 数据训练而成。模型支持 11 种语言和多种口音,具备高精度、高...
阅读原文

AntSK FileChunk

AntSK FileChunk是基于语义理解的智能文本切片工具,专门用在处理PDF和Word文档。工具基于先进的语义分析技术,将长文档分割成语义完整且连贯的片段,避免传...
阅读原文

AI Video Transcriber

AI Video Transcriber 是开源的视频转录与总结工具,支持YouTube、TikTok等30多个平台。工具用Faster-Whisper进行高精度语音转文字,通过AI优化文本,纠正拼...
阅读原文

DeepDoc

DeepDoc 是开源的深度研究工具,专注于对本地知识库进行深度研究。工具通过研究式工作流,提取本地资源(如 PDF、DOCX、JPG、TXT 等)中的文本,分割存储在向...
阅读原文

Visual Story-Writing

Visual Story-Writing是创新的AI写作工具,通过可视化界面帮助用户构建和编辑故事。工具用GPT-4o技术自动解析文本,能转换成事件、角色和动作的可视化结构,...
阅读原文

MiniCPM 4.1

MiniCPM 4.1 是面壁智能推出的混合思考模型。采用 InfLLM v2 稀疏注意力架构,每个词元仅需计算与少于 5% 词元的相关性,显著降低长文本处理开销。在 128K 长...
阅读原文

Parlant

Parlant是开源的LLM(大型语言模型)代理行为建模引擎,帮助开发者快速创建符合业务要求的对话式代理。通过自然语言规则定义来确保AI代理的行为符合业务逻辑...
阅读原文

rStar2-Agent

rStar2-Agent是微软开源的仅140亿参数的数学推理模型。模型用智能体强化学习方法训练,在AIME24数学推理测试中准确率高达80.6%,超越6710亿参数的DeepSeek-R1。
阅读原文

Qwen3-Max-Preview

Qwen3-Max-Preview 是阿里巴巴旗下通义千问团队发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、...
阅读原文

Claudable

Claudable是基于Next.js的开源Web应用构建器,结合了Claude Code和Cursor CLI的先进AI代理能力,以及Lovable简单直观的应用构建体验。用户只需用自然语言描述...
阅读原文

FineVision

FineVision 是 Hugging Face 推出的开源视觉语言数据集,训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数...
阅读原文

EmbeddingGemma

EmbeddingGemma是谷歌开源的多语言文本嵌入模型,专为端侧AI设计,支持在笔记本、手机等设备上部署。模型拥有3.08亿参数,基于Gemma 3架构打造,支持100多种...
阅读原文

OneCAT

OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉...
阅读原文