AI项目和框架

Seed1.8

Seed1.8 是字节跳动推出的通用 Agent 大模型,具备强大的多模态能力,支持图文输入。模型集搜索、代码生成与 GUI 交互能力于一体,可在复杂工作流中高效完成...
阅读原文

SHARP

SHARP 是苹果开源的 AI 模型,能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术,用神经网络单次前馈传递,快速预测出场景的 3...
阅读原文

Step-GUI

Step-GUI 是阶跃星辰推出的AI Agent系列模型,包含云侧模型 Step-GUI 和端侧模型 Step-GUI Edge。云侧模型擅长复杂任务处理,端侧模型轻量化,能在手机等本地...
阅读原文

SAM Audio

SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovi...
阅读原文

Gemini 3 Flash

Gemini 3 Flash 是谷歌推出的高速、低成本的前沿智能模型。模型基于 Gemini 3 开发,性能显著提升,具备强大的推理能力和多模态理解能力。
阅读原文

A2UI

A2UI(Agent-to-User Interface)是谷歌开源的基于Agent的接口协议,用于AI与用户界面之间的交互。A2UI通过AI生成的JSON描述,让客户端原生渲染交互界面,无...
阅读原文

混元世界模型1.5

腾讯混元世界模型1.5(HY WorldPlay 1.5)是腾讯混元团队开源的实时交互式世界生成模型。用户只需输入文字或图片,模型能快速创建专属的虚拟世界,通过键盘、...
阅读原文

MiMo-V2-Flash

MiMo-V2-Flash 是小米开源的高性能语言模型,具有3090亿总参数和150亿激活参数。专为智能体AI设计,采用混合注意力架构,结合滑动窗口注意力(SWA)和全局注...
阅读原文

Molmo 2

Molmo 2 是艾伦人工智能研究所(Ai2)推出的开源视频分析模型,专注于视频理解、指向和追踪。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视...
阅读原文

GPT Image 1.5

GPT Image 1.5 是 OpenAI 最新推出的图像生成模型,具有更强的指令遵循能力和精准编辑功能,根据用户要求只修改指定部分,同时保持画面整体一致性。
阅读原文

LongCat-Video-Avatar

LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频,保持人物身份一致性和自然动态。LongCat-Video...
阅读原文

Seedance 1.5 Pro

Seedance 1.5 Pro 是字节跳动 Seed 团队推出的原生音画同步的多模态视频生成模型。模型能根据文本提示生成高质量的视频内容,支持多样人声及音效,覆盖多种语...
阅读原文

Live Avatar

Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型,能通过音视频驱动生成无限时长的数字人视频。
阅读原文

Banana Slides

Banana Slides 是开源的 AI 演示文稿生成工具,基于 nano banana pro 模型开发。以极简设计和强大的 AI 功能为亮点,帮助用户快速创建高质量的 PPT。用户可以...
阅读原文

万相2.6

万相2.6 是阿里通义推出的面向专业影视制作和图像创作的先进视频生成系列模型。模型支持角色扮演功能,可让用户通过上传视频和输入提示词,快速生成具有电影...
阅读原文
123161