NEO

NEO – 商汤联合南洋理工开源的全新多模态模型架构

NEO，一项由商汤科技与南洋理工大学携手孕育的开创性多模态模型架构，以“原生多模态架构（Native VLM）”的身份崭露头角。它凭借底层架构的深刻革新，旨在突破传统多模态模型的既有藩篱。其核心亮点包括：原生图块嵌入（Native Patch Embedding），能够以前所未有的精细度洞察图像的细微之处；原生三维旋转位置编码（Native-RoPE），巧妙契合图像与文本的自然结构；以及原生多头注意力（Native Multi-Head Attention），显著增强模型对复杂图文关联的洞察力。

NEO的独特之处

原生多模态深度融合：NEO的基石在于其底层架构设计，实现了图像与文本的无缝深度交融，彻底摆脱了传统多模态模型中模块化拼接的局限，能够更自然地驾驭混合了图像与文本的内容。
数据效能的极致释放：令人瞩目的是，NEO在仅需相对少量数据（例如3.9亿图像文本对）的情况下，便能达成业界顶尖的视觉感知水平，极大提升了数据利用效率，有效降低了训练成本。
性能的非凡展现：在多项权威评测中，NEO均表现出卓越的实力，无论是在图像理解、文本生成，还是在图文推理任务上，都能提供高水准的输出。
推理的超高性价比：尤其是在中小型参数规模（如0.6B-8B）下，NEO在边缘部署和推理效率方面展现出强大的竞争力，使其能够胜任广泛的实际应用场景。
开放共享与生态共建：商汤科技已将2B和9B两种规模的NEO模型公之于众，旨在激发开发者和研究人员在此架构基础上进行更深入的探索与应用，共同构建下一代多模态技术标准。

NEO的技术精髓

原生图块嵌入（Native Patch Embedding）：通过自底向上的连续映射机制，将图像像素直接整合至模型内部，规避了传统图像分词器（tokenizer）的离散化处理，从而更精微地捕获图像细节，增强图像建模能力。
原生三维旋转位置编码（Native-RoPE）：此项创新巧妙地解耦了图像与文本在三维时空频率上的分配，为图像赋予高频编码，为文本注入低频编码，更好地贴合两种模态的内在结构，支持在复杂场景下对空间结构的关联分析。
原生多头注意力（Native Multi-Head Attention）：在一个统一的框架内，NEO能够同时实现文本的自回归注意力机制和视觉的双向注意力机制，极大地提升了模型对图文之间复杂关系的理解深度，从而支持对图文混合内容的深入理解与推理。
底层架构的颠覆性创新：NEO的革新源于其底层架构的根本性重塑，实现了多模态信息的深度融合，而非简单的模块堆砌，从本质上打破了传统多模态模型的性能瓶颈，全面提升了模型的整体效能。
训练与推理的效率飞跃：通过精妙的架构设计优化，NEO在训练与推理流程中均展现出更高的效率，特别是在中小型参数规模下，能够实现更低的计算开销和更快的推理速度，使其在实际部署中更具优势。