AI项目和框架

混元3D v2.5

混元3D v2.5是腾讯推出的新一代3D生成模型,在建模精细度上大幅提升,总参数量从1B提升至10B,有效面片数增加超10倍,有效几何分辨率达到1024,实现超高清的...
阅读原文

SurveyGO

SurveyGO(卷姬) 是面壁智能团队开源的AI论文写作工具。支持根据用户输入的论文主题和描述,快速生成结构清晰、内容丰富的综述文章,帮助科研人员和学生高效...
阅读原文

Suna

Suna 是Kortix推出的全球首款通用型 AI Agent 开源项目,支持高效解决现实场景中的各类任务。基于自然流畅的对话交互,Suna 支持智能辅助研究分析、数据处理...
阅读原文

Yuxi-Know

Yuxi-Know(语析)是基于大模型RAG知识库与知识图谱技术构建的智能问答平台。Yuxi-Know支持多种知识库文件格式(如PDF、TXT、MD、Docx),支持将文件内容转换...
阅读原文

WriteHERE

WriteHERE是Jürgen Schmidhuber领衔的团队开源的AI长文写作框架。WriteHERE基于异质递归规划(Heterogeneous Recursive Planning)技术,动态分解写作任务为...
阅读原文

MAGI-1

MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型,采用自回归架构,通过逐块预测视频序列生成流畅自然的视频,支持无限扩展和一镜到底的长视频生成。
阅读原文

Infinite Mobility

Infinite Mobility 是上海AI Lab推出的可交互物体生成模型,基于程序化生成技术,高效生成高质量的可交互物体数据资产。Infinite Mobility支持22类常见可交互...
阅读原文

ImagePulse

ImagePulse (图律脉动)是魔搭社区推出的开源项目,为下一代图像理解和生成模型提供数据集支持,通过原子化模型的能力并构建原子能力数据集。项目包含多个原...
阅读原文

SimpleAR

SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像...
阅读原文

Aether

Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和...
阅读原文

Gemma 3 QAT

Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版本。通过量化感知训练技术,Gemma 3 QAT 在显著降低内存...
阅读原文

OpenUtau

OpenUtau 是开源的歌声合成工具,兼容 UTAU 音源库和重采样器,支持 VSQX 导入、多语言界面及预渲染功能,帮助创作者快速预览作品节省时间。OpenUtau现代化的...

SkyReels-V2

SkyReels-V2是昆仑万维SkyReels团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion-forcing)框架,结合多模态大语言模型(MLLM)、多阶段预训练、强...
阅读原文

GigaTok

GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜...
阅读原文

HumanRig

HumanRig 是阿里巴巴团队开发的 3D 人形角色自动绑定研究项目。解决现有绑定技术因缺乏高质量数据集而发展受限的问题,通过提供大规模、高质量的数据集和创新...
阅读原文
14647484950154