AI项目和框架

DeepSeek-R1-0528

DeepSeek-R1-0528 是 DeepSeek 团队推出的最新版AI模型。模型基于 DeepSeek-V3-0324 训练,参数量达 660B。模型在 HuggingFace 上开源,开发者能自由使用和修...
阅读原文

CoGenAV

CoGenAV - 通义联合深圳技术大学推出的多模态语音表征模型
阅读原文

Onit

Onit是为Mac设计的AI聊天助手,支持停靠在任何应用程序中。Onit支持高亮文本自动加载,用户只需选择文本,Onit能自动作为上下文打开,无需复制粘贴。
阅读原文

Ming-lite-omni

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构,融合文本、图像、音频和视频等多种模态的感知能力,具备强大的理解和生成能力。模型在多...
阅读原文

HunyuanVideo-Avatar

HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩散Transformer架构,能生成动态、情感可控以及多角色对话视...
阅读原文

Jodi

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。
阅读原文

HunyuanPortrait

HunyuanPortrait 是腾讯 Hunyuan 团队联合清华大学、中山大学和香港科技大学等机构共同推出的基于扩散模型的框架,用在生成高度可控且逼真的肖像动画。基于给...
阅读原文

PC Agent-E

PC Agent-E是上海交通大学和SII联合推出的高效智能体训练框架。框架用312条人类标注的计算机使用轨迹,基于Claude 3.7 Sonnet模型合成多样化的行动决策,显著...
阅读原文

CAR

CAR(Certainty-based Adaptive Reasoning)是字节跳动联合复旦大学推出的自适应推理框架,能提升大型语言模型(LLM)和多模态大型语言模型(MLLM)在不同任...
阅读原文

WonderPlay

WonderPlay 是斯坦福大学联合犹他大学推出的新型框架,支持从单张图片和用户定义的动作生成动态3D场景。基于结合物理模拟和视频生成技术,用物理求解器模拟粗...
阅读原文

LMEval

LMEval 是谷歌推出的开源框架,用在简化大型模型(LLMs)的跨提供商评估。框架支持多模态(文本、图像、代码)和多指标评估,兼容 Google、OpenAI、Anthropic...
阅读原文

LLaDA-V

LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视...
阅读原文

Company Research Agent

Company Research Agent是基于多智能体框架的公司研究工具,支持一键自动生成全面的公司研究报告。工具从公司网站、新闻文章、财务报告和行业分析等多源数据...
阅读原文

Direct3D-S2

Direct3D-S2 是南京大学、DreamTech、复旦大学和牛津大学的研究人员共同推出的高分辨率 3D 生成框架,基于稀疏体积表示和创新的空间稀疏注意力(SSA)机制,...
阅读原文

QwenLong-L1

QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的,基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知...
阅读原文
1234121