AI项目和框架

Time-R1

Time-R1是伊利诺伊大学香槟分校研究团队开发的基于3B参数的语言模型,通过独特的三阶段强化学习训练方法,在时间推理能力上取得了显著突破。
阅读原文

MiniMax-Remover

MiniMax-Remover 是新型的视频目标移除方法,解决现有技术中常见的幻觉物体、视觉伪影以及推理速度缓慢等问题。采用两阶段方法:第一阶段基于简化版的 DiT 架...
阅读原文

MonkeyOCR

MonkeyOCR 是华中科技大学联合金山办公(Kingsoft Office)推出的文档解析模型,模型支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分析、内...
阅读原文

Playmate

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型,用双阶段训练框架,根据音频和指令精准控制人物的表情和头部姿态,生...
阅读原文

dots.llm1

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上...
阅读原文

MiniCPM 4.0

MiniCPM 4.0 是面壁智能推出的端侧大模型。模型分为 8B 和 0.5B 两种参数规模。8B 闪电稀疏版采用创新稀疏架构,能高效处理长文本任务;0.5B 版本以低计算资...
阅读原文

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型。通过内联音频标签实现情感和语调的精确控制,支持多说话人对话,对话更自然。模型支持超70种语言,文本理解...
阅读原文

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通义千问团队发布的文本重排序模型,属于Qwen3模型家族。采用单塔交叉编码器架构,输入文本对后输出相关性得分。模型通过多阶段训练...
阅读原文

Qwen3 Embedding

Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型。继承了 Qwen3 的先进架构,如 Grouped Query Attention、SwiGLU 激活函数等,通...
阅读原文

DecipherIt

DecipherIt是AI驱动的研究助手工具,基于智能化手段简化和优化研究过程。工具支持将各种主题、链接和文件转化为AI生成的研究笔记本,提供全面的总结、互动问...
阅读原文

Gemini Fullstack LangGraph Quickstart

Gemini Fullstack LangGraph Quickstart 是谷歌DeepMind推出的开源项目,帮助开发者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全栈智能研究助手。
阅读原文

MoonCast

MoonCast 是零样本播客生成系统,从纯文本源合成自然的播客风格语音。通过长上下文语言模型和大规模语音数据训练,能生成几分钟长的播客音频,支持中文和英文。
阅读原文

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于超过200万小时的音频数据训练,支持13种语言。采用双自回归(Dual-AR)架构和强化学习与人类反馈...
阅读原文

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音频编辑模型,基于扩散模型技术,专门用在音频的精细编辑和修复。模型将音频编码为离散的标记序列,对需要修改的部分进行掩...

Auto Think

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型,模型针对深度思考大模型存在的“过度思考”问题进行了深入研究,提出了一种...
阅读原文
17891011131