AI项目和框架

RWKV-7-2.9B

RWKV-7-2.9B模型(RWKV-7-World-2.9B-V3) 是RWKV 基金推出的先进 RNN 大语言模型。基于 RWKV World V3 数据集训练,具有 29 亿参数,支持世界所有语言。模型...
阅读原文

AxBench

AxBench 是斯坦福大学推出的评估语言模型(LM)控制方法的基准测试框架。基于合成数据生成训练和评估数据,比较不同模型控制技术在概念检测和模型转向两个方...
阅读原文

Lumina-Video

Lumina-Video是上海 AI Lab 和香港中文大学推出的视频生成框架,基于Next-DiT架构,针对视频生成中的时空复杂性进行优化。基于多尺度Next-DiT架构,用不同大...
阅读原文

Pippo

Pippo是Meta Reality Labs推出的图像到视频生成模型,能从单张照片生成1K分辨率的多视角高清人像视频。模型基于多视角扩散变换器,预训练了30亿张人像图像,...
阅读原文

Animate Anyone 2

Animate Anyone 2 是阿里巴巴集团通义实验室推出的高保真角色图像动画生成技术,通过结合环境信息生成更具真实感的角色动画。与传统方法不同,能从视频中提取...
阅读原文

AuraFusion360

AuraFusion360是用于360°无边界场景修复的新型基于参考的方法,主要用于虚拟现实和建筑可视化等领域的三维场景修复。通过高斯散射表示的3D场景,实现了高质量...
阅读原文

Zonos

Zonos是Zyphra推出的高保真文本到语音(TTS)模型。Zonos包含两个模型:16亿参数的Transformer模型和SSM混合模型,均在Apache 2.0许可下开源。Zonos根据文本...
阅读原文

ProtGPS

ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)和怀特黑德生物医学研究所推出的,基于深度学习的蛋白质语言模型,用在预测蛋白质在...
阅读原文

potpie.ai

potpie.ai 是开源平台,基于AI技术为代码库创建定制化的工程代理(Agents)。potpie.ai基于构建代码库的知识图谱,深度理解代码组件之间的关系,实现自动化代...
阅读原文

MoMask

MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的...
阅读原文

UltraMem

UltraMem 是字节跳动豆包大模型团队提出的全新超稀疏模型架构,解决传统 MoE 架构在推理时的高额访存问题。架构通过优化内存访问和计算效率,显著降低推理成...
阅读原文

HumanDiT

HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DiT),能在大规模数据集上训练,生成...
阅读原文

TPO

TPO(Test-Time Preference Optimization)是新型的AI优化框架,在推理阶段对语言模型输出进行动态优化,更符合人类偏好。TPO通过将奖励信号转化为文本反馈,...
阅读原文

PDF to Podcast

PDF to Podcast是NVIDIA推出的PDF转音频的AI工具,基于NVIDIA NIM微服务架构的,能将PDF文档转换为生动的音频内容,如播客。基于大型语言模型(LLM)、文本到...
阅读原文

InternVideo2.5

InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了显著进展,特别是在长视频处...
阅读原文
13456784