AI项目和框架
Qwen3-ASR-Flash
Qwen3-ASR-Flash 是通义千问系列最新语音识别模型,基于 Qwen3 基座模型,经海量多模态及 ASR 数据训练而成。模型支持 11 种语言和多种口音,具备高精度、高...
AntSK FileChunk
AntSK FileChunk是基于语义理解的智能文本切片工具,专门用在处理PDF和Word文档。工具基于先进的语义分析技术,将长文档分割成语义完整且连贯的片段,避免传...
AI Video Transcriber
AI Video Transcriber 是开源的视频转录与总结工具,支持YouTube、TikTok等30多个平台。工具用Faster-Whisper进行高精度语音转文字,通过AI优化文本,纠正拼...
Visual Story-Writing
Visual Story-Writing是创新的AI写作工具,通过可视化界面帮助用户构建和编辑故事。工具用GPT-4o技术自动解析文本,能转换成事件、角色和动作的可视化结构,...
MiniCPM 4.1
MiniCPM 4.1 是面壁智能推出的混合思考模型。采用 InfLLM v2 稀疏注意力架构,每个词元仅需计算与少于 5% 词元的相关性,显著降低长文本处理开销。在 128K 长...
rStar2-Agent
rStar2-Agent是微软开源的仅140亿参数的数学推理模型。模型用智能体强化学习方法训练,在AIME24数学推理测试中准确率高达80.6%,超越6710亿参数的DeepSeek-R1。
Qwen3-Max-Preview
Qwen3-Max-Preview 是阿里巴巴旗下通义千问团队发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、...
FineVision
FineVision 是 Hugging Face 推出的开源视觉语言数据集,训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数...
EmbeddingGemma
EmbeddingGemma是谷歌开源的多语言文本嵌入模型,专为端侧AI设计,支持在笔记本、手机等设备上部署。模型拥有3.08亿参数,基于Gemma 3架构打造,支持100多种...