SAM 3

SAM 3 – Meta开源的视觉分割模型

Meta AI 隆重推出了其最新的尖端计算机视觉模型——SAM 3（Segment Anything Model 3）。这款革新性的模型能够借助文本描述、样例参考以及视觉线索，精准地识别、分割并追踪图像和视频中的各类对象。SAM 3 凭借其强大的跨模态交互能力，支持开放词汇短语的输入，并能实时动态地校正分割结果，为用户带来前所未有的体验。

SAM 3 究竟是何物？

SAM 3（Segment Anything Model 3）是 Meta AI 倾力打造的最新一代先进计算机视觉模型。它能够通过文本指令、示例样本以及直观的视觉提示，对图像和视频中的对象执行检测、分割和追踪等一系列复杂任务。该模型显著的特点在于其对开放词汇短语输入的完美兼容，以及卓越的跨模态交互能力，能够实时动态地调整和优化分割效果。SAM 3 在图像和视频分割领域表现出惊人的性能，其效率和准确性达到了现有同类系统的两倍，并且无缝支持零样本学习。更令人振奋的是，SAM 3 的能力已延伸至 3D 重建领域，为家居场景预览、创意视频编辑以及前沿科学研究等多元化应用场景注入了强劲动力，无疑为计算机视觉的未来发展铺就了坚实道路。

SAM 3 的核心功能亮点

全方位多模态提示支持：SAM 3 能够灵活运用文本描述、示例图像以及直观的视觉交互（如鼠标点击、框选区域）来精确识别并分割图像与视频中的目标对象，完美契合用户的多样化操作需求。
卓越的图像与视频分割能力：SAM 3 能够一次性检测并分割图像中的所有匹配对象，同时支持在视频序列中高效追踪特定对象。其强大的实时交互性，允许用户即时修正分割错误，进一步提升结果的精确度。
强大的零样本学习机制：SAM 3 具备处理全新、未知概念的能力，仅凭开放词汇的文本提示，即可实现对未曾见过的对象类别的分割，无需进行额外的模型训练。
流畅的实时交互体验：SAM 3 支持用户通过添加额外的提示信息（例如，精准点击或划定区域）来纠正模型可能出现的失误，从而实现对分割结果的精细化调整，显著优化整体用户体验。
广泛的跨领域应用潜力：SAM 3 的应用范围极为广泛，涵盖了诸如 Instagram Edits 等创意媒体工具，Facebook Marketplace 中的家居装饰预览功能，乃至野生动物监测等严谨的科学研究领域。

SAM 3 的技术基石解析

统一高效的模型架构：SAM 3 采用了统一且强大的模型架构，能够同时高效处理图像和视频中的分割任务。该模型巧妙地融合了先进的视觉编码器（例如 Meta Perception Encoder）与强大的文本编码器，使其能够理解并响应开放词汇的文本指令。其架构的核心组成部分包括一个能够识别全局图像对象的检测器，以及一个基于记忆机制的视频，两者共享同一个核心视觉编码器。
多模态输入的智能处理：
- 文本编码器：负责将用户输入的文本提示转化为可供模型理解的特征向量，从而指导后续的分割过程。
- 视觉编码器：负责将输入的图像或视频帧编码成具有丰富信息的特征向量，为对象的检测和分割提供基础。
- 融合编码器：将文本特征与视觉特征进行深度融合，生成条件化的图像特征表示，为最终的分割任务提供精确的引导。
创新的“存在头”设计：为了进一步提升模型的分类精度，SAM 3 引入了一个名为“存在头”（Presence Head）的创新模块。该模块专门负责预测目标概念在图像或视频中是否实际存在，从而将对象的识别任务与定位任务有效解耦，显著提高了模型的准确性和处理效率。
海量数据驱动的训练引擎：为了训练 SAM 3，Meta 构建了一个极其高效的数据引擎。该引擎巧妙地结合了人工标注和 AI 辅助标注策略，成功生成了超过 400 万个独特概念的高质量标注数据集。这些数据覆盖了极其广泛的视觉领域和多样的任务类型，确保了模型拥有卓越的泛化能力。
赋能零样本学习：SAM 3 的核心能力之一是其对零样本学习的支持，使其能够处理训练过程中从未见过的新概念。通过开放词汇的文本提示，模型能够利用预先训练好的视觉和语言编码器，精准地识别并分割出全新的对象类别。
无缝的实时交互体验：SAM 3 提供了流畅的实时交互功能，用户可以通过添加额外的提示信息（例如，精准点击或框选区域）来纠正模型的分割错误，从而实现对结果的精细化优化。这种交互性使得模型能够更准确地理解用户的意图，并根据用户反馈进行动态调整。
精密的视频追踪与分割：在处理视频任务时，SAM 3 运用了一个基于记忆的来维持对象在时空维度上的一致性。该结合了检测器的输出以及存储在记忆中的历史信息，能够生成高质量的分割掩码，并能平滑地在视频帧之间传递掩码信息。

SAM 3 的官方资源入口

项目官方网站：https://ai.meta.com/sam3/
GitHub 代码仓库：https://github.com/facebookresearch/sam3/
在线体验演示（Demo）：https://www.aidemos.meta.com/segment-anything

SAM 3 的广泛应用场景展望

赋能创意媒体制作：内容创作者可以以前所未有的速度为视频中的人物或物体应用各种特效，极大地提升了创作效率和想象力。
革新家居装饰体验：在 Facebook Marketplace 中，SAM 3 支持的“房间预览”功能，让用户能够直观地将家居装饰品放置于真实空间中进行预览，从而做出更明智的购买决策。
推动科学研究进展：SAM 3 被广泛应用于野生动物监测和深海探索等领域，为科研人员提供了强大的工具，以更深入地理解和保护我们的自然生态系统，例如通过视频分析来揭示野生动物的行为模式。
引领 3D 重建新浪潮：SAM 3D 技术能够从单张图像重建出逼真的 3D 物体和人体模型，为真实世界场景的 3D 重建设定了新的行业标准，为虚拟现实和增强现实应用的蓬勃发展奠定了基础。
丰富视频创作的可能性：SAM 3 提供了一系列智能的 AI 视觉创作工具，能够支持对现有 AI 生成视频进行灵活的混剪和编辑，极大地拓宽了视频创作的边界。

阅读原文