AI项目和框架

MiMo-V2-Flash

MiMo-V2-Flash 是小米开源的高性能语言模型,具有3090亿总参数和150亿激活参数。专为智能体AI设计,采用混合注意力架构,结合滑动窗口注意力(SWA)和全局注...
阅读原文

Molmo 2

Molmo 2 是艾伦人工智能研究所(Ai2)推出的开源视频分析模型,专注于视频理解、指向和追踪。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视...
阅读原文

GPT Image 1.5

GPT Image 1.5 是 OpenAI 最新推出的图像生成模型,具有更强的指令遵循能力和精准编辑功能,根据用户要求只修改指定部分,同时保持画面整体一致性。
阅读原文

LongCat-Video-Avatar

LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频,保持人物身份一致性和自然动态。LongCat-Video...
阅读原文

Seedance 1.5 Pro

Seedance 1.5 Pro 是字节跳动 Seed 团队推出的原生音画同步的多模态视频生成模型。模型能根据文本提示生成高质量的视频内容,支持多样人声及音效,覆盖多种语...
阅读原文

Live Avatar

Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型,能通过音视频驱动生成无限时长的数字人视频。
阅读原文

Banana Slides

Banana Slides 是开源的 AI 演示文稿生成工具,基于 nano banana pro 模型开发。以极简设计和强大的 AI 功能为亮点,帮助用户快速创建高质量的 PPT。用户可以...
阅读原文

万相2.6

万相2.6 是阿里通义推出的面向专业影视制作和图像创作的先进视频生成系列模型。模型支持角色扮演功能,可让用户通过上传视频和输入提示词,快速生成具有电影...
阅读原文

通义百聆

通义百聆是阿里通义实验室推出的企业级语音基座大模型,整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型,专为复杂环境下的语音应用设计,通过 Cont...
阅读原文

Nemotron 3

Nemotron 3 是英伟达推出的新型开源模型系列,包括 Nano、Super 和 Ultra 三种尺寸。模型采用突破性的混合专家混合(MoE)架构,专为构建高效、准确的多智能...
阅读原文

LightX2V

LightX2V 是商汤开源的行业首个能实现实时视频生成的推理框架。框架支持多种视频生成任务,如文本到视频(T2V)和图像到视频(I2V),集成多种先进视频生成技...
阅读原文

UnityVideo

UnityVideo 是香港科技大学联合快手可灵团队、清华大学等推出的新型多模态、多任务视频生成框架,能通过整合多种视觉模态(如分割、骨架、深度、光流等)和训...
阅读原文

Wan-Move

Wan-Move 是阿里巴巴通义实验室等机构开源的运动可控视频生成框架,通过潜在轨迹引导实现高质量的视频运动控制。核心亮点在于无需对现有图像到视频模型进行架...
阅读原文

Paper2Slides

Paper2Slides 是香港大学开源的AI工具,能快速将学术论文、报告和文档转换为专业幻灯片或海报。采用 RAG(检索增强生成)机制,直接从文档本身提取内容,确保...
阅读原文

OpenScreen

OpenScreen 是开源免费的屏幕录制工具,是 Screen Studio 的平替。工具支持 Mac 和 Windows 系统,具备手动缩放、自定义缩放深度、裁剪视频、选择背景、添加...
阅读原文
123160