商汤NEO模型

3个月前更新 206 00

商汤NEO是商汤科技与南洋理工大学S-Lab实验室于2025年12月联合发布的全新原生多模态模型架构，其名称“NEO”蕴含着“全新开端”的寓意。这一架构被业界普遍认为是多模态AI领域的重要突破，标志着多模态技术从“模块化拼凑”正式迈入“原生统一”的新时代。

收录时间：

2025-12-05

打开网站手机查看

AI Product Navigation AI产品库 # 南洋理工大学S-Lab实验室 # 商汤NEO # 商汤NEO GitHub # 商汤NEO安装 # 商汤NEO模型 # 商汤科技 # 多模态AI

商汤NEO模型

打开网站

商汤NEO模型：用1/10数据量重塑多模态AI，边缘设备也能跑动的顶级模型

1 商汤NEO模型是什么？

商汤NEO是商汤科技与南洋理工大学S-Lab实验室于2025年12月联合发布的全新原生多模态模型架构，其名称“NEO”蕴含着“全新开端”的寓意。这一架构被业界普遍认为是多模态AI领域的重要突破，标志着多模态技术从“模块化拼凑”正式迈入“原生统一”的新时代。

与当前主流多模态模型采用的“视觉编码器+投影器+语言模型”的模块化范式不同，NEO从底层设计上就原生统一了视觉与语言的处理机制。这种设计摒弃了传统模型中视觉和语言模块各自为政的拼接方式，而是构建了一个能够天生理解图文信息的统一架构。

正如商汤科技联合创始人林达华博士所形容：“传统架构就像双语者靠翻译器交流，永远达不到母语者的默契，而NEO则赋予了模型像母语者一样自然处理多模态信息的能力。” NEO架构的核心创新体现在三个关键技术层面：原生图块嵌入(Native Patch Embedding)、原生三维旋转位置编码(Native-RoPE)以及原生多头注意力(Native Multi-Head Attention)机制。

这些技术创新使得NEO仅需3.9亿训练数据（相当于同类模型1/10的数据量）就能达到顶级视觉语言模型的性能，在多项权威评测中追平甚至超越了Qwen2-VL、InternVL3等模块化旗舰模型。

2 NEO模型的主要功能和特点

2.1 原生多模态融合架构

NEO架构最根本的突破在于实现了视觉与语言在底层的深度融合。传统多模态模型通常将视觉编码器和语言模型简单拼接，视觉信号需要经离散化转换才能输入语言模型，导致图像细节丢失和模态交互浅表化。

而NEO通过原生图块嵌入技术(Native Patch Embedding)，摒弃了离散的图像tokenizer，通过独创的Patch Embedding Layer(PEL)自底向上构建从像素到词元的连续映射，能够保留97%以上的图像细节信息。

2.2 极高的数据利用效率

NEO展现出惊人的数据效率，仅需3.9亿图像-文本对就能开发出顶尖的视觉感知能力，而同等性能的模块化模型（如InternVL3）至少需要60亿训练数据，是NEO的15倍以上。这一突破显著降低了多模态模型的训练成本，使更多研究机构和企业能够参与高性能多模态AI的研发。 表：NEO模型的数据效率对比

模型	训练数据量	MMMU评分	推理成本
NEO-9B	3.9亿图像-文本对	优异	低
InternVL3	≈60亿图像-文本对	优异	高
Qwen2-VL	≈50亿图像-文本对	良好	中高

2.3 强大的边缘部署能力

NEO在0.6B-8B的参数区间内边缘部署优势显著，实现了精度与效率的双重突破。NEO-2B模型仅需2GB显存即可运行，可适配消费级GPU（如RTX 4090）乃至智能摄像头、智能手表等边缘设备。这一特性使得高性能多模态AI能够在资源受限的环境中实时运行，为智能终端设备带来更强大的AI能力。

2.4 原生三维旋转位置编码

NEO创新性地提出原生三维旋转位置编码(Native-RoPE)，解耦了三维时空频率分配：视觉维度采用高频编码，便于模型理解空间布局和细粒度对齐；文本维度采用低频编码，兼容预训练语言模型的习惯。这种设计使NEO不仅能精准捕获图像的空间结构，更具备向视频处理、跨帧建模等复杂场景无缝扩展的潜力。

2.5 原生多头注意力机制

NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存。这种设计让模型可以无视线性化顺序，直接根据原生三维旋转位置编码的二维坐标来学习任意两个空间区域的语义和几何关系，极大地提升了模型对空间结构关联的利用率，从而更好地支撑复杂的图文混合理解与推理。

2.6 三阶段训练策略

NEO采用创新的Pre-Buffer & Post-LLM双阶段融合训练策略，整个训练过程分为预训练、中期训练和监督微调三个阶段。这种策略能够在吸收原始LLM完整语言推理能力的同时，从零构建强大的视觉感知能力，彻底解决了传统跨模态训练中语言能力受损的难题。

如商汤训练负责人张敏所比喻：“这就像教孩子学外语，先让他多听多看来培养语感，再教语法，而不是一上来就背单词。”

3 如何使用商汤NEO模型？

3.1 获取与安装

商汤已正式开源基于NEO架构的2B与9B两种规格模型，所有代码、模型权重及技术文档均可在GitHub上获取。 官方开源地址：https://github.com/EvolvingLMMs-Lab/NEO 开发者可以通过以下步骤快速开始使用NEO模型：

克隆代码库git clone https://github.com/EvolvingLMMs-Lab/NEO.git cd NEO
安装依赖包pip install -r requirements.txt
下载模型权重
- NEO-2.2B模型：适用于资源受限环境
- NEO-9B模型：适用于需要更高精度的场景

3.2 基本使用示例

安装完成后，开发者可通过以下Python代码快速调用NEO模型：

from neo import NeoModel, NeoProcessor

# 初始化模型和处理器
model = NeoModel.from_pretrained("SenseAI/NEO-2.2B")
processor = NeoProcessor.from_pretrained("SenseAI/NEO-2.2B")

# 准备输入（支持图像和文本）
inputs = processor(
    text="描述这张图片的内容",
    images=Image.open("example.jpg"),
    return_tensors="pt"
)

# 生成输出
outputs = model.generate(**inputs)
print(processor.decode(outputs[0], skip_special_tokens=True))

3.3 高级配置与优化

对于有特定需求的用户，NEO提供了丰富的配置选项：

分辨率自适应：NEO支持任意分辨率输入，无需预先调整图像大小
推理优化：支持量化技术和推理加速，可在边缘设备上实现实时推理
多模态任务支持：涵盖视觉问答、图文匹配、文档理解等多种任务

3.4 适用环境与硬件建议

根据不同的应用场景，推荐以下硬件配置：

NEO-2.2B模型：RTX 4090消费级显卡（2GB显存即可运行），适合智能终端和边缘设备
NEO-9B模型：专业级GPU（如A100），适合服务器和工业级应用

4 NEO模型的官方地址与获取方式

商汤NEO模型完全开源免费，所有研究者、开发者和企业均可自由使用、修改和分发。

GitHub仓库：https://github.com/EvolvingLMMs-Lab/NEO
论文地址：https://arxiv.org/abs/2510.14979
官方文档：GitHub仓库中提供了完整的技术文档、API说明和使用教程

商汤计划在未来推出“NEO云服务”，按调用量计费，进一步降低使用门槛。但目前模型本身完全开源，不收取任何许可费用。

5 NEO模型 vs 竞品对比分析

5.1 技术架构对比

与传统模块化多模态模型相比，NEO在架构上具有根本性差异。下表展示了NEO与主流竞品的关键技术特点对比： 表：NEO模型与竞品技术架构对比

特性	NEO模型	传统模块化模型(Qwen2-VL等)	优势比较
架构设计	原生统一架构，视觉语言深度融合	视觉编码器+投影器+语言模型拼接	NEO解决了模态割裂问题
数据效率	仅需3.9亿训练数据	需60亿以上训练数据	NEO效率提升15倍
细节保留	97%以上图像细节保留	因离散化转换导致细节丢失	NEO显著提升
边缘部署	2B模型仅需2GB显存	通常需要8GB以上显存	NEO更适合边缘计算
训练策略	三阶段训练，防止语言能力受损	联合训练，易导致语言能力退化	NEO保持更强语言理解

5.2 性能表现对比

在多项权威评测中，NEO展现出卓越的性能表现：

综合性能：在MMMU、MMB、MMStar、SEED-I、POPE等多项公开评测中，NEO架构均斩获高分，展现出优于其他原生VLM的综合性能
同参数规模对比：在2B和8B参数规模下，NEO几乎全面领先其他原生VLM模型（如Mono-InternVL-1.5、HoVLE等）
复杂推理能力：在需要深层次图文混合推理的任务中，NEO表现出色，特别是在图表理解、文档结构理解等任务上接近顶级模块化模型水平

5.3 优势与不足

NEO的主要优势包括：

数据效率极高：大幅降低训练成本和时间
边缘部署友好：使高端多模态AI在资源受限环境中运行成为可能
细节捕捉能力强：连续映射机制保留更多图像细节信息
扩展性强：原生支持视频、3D等复杂模态扩展

目前存在的不足：

密集文本识别能力有待提升：在OCRBench测试中得分77.7，低于InternVL3的88.0
外部知识依赖不足：缺乏实时知识更新机制
长视频处理算力消耗大：处理1小时以上视频时算力需求指数级增长

商汤研究人员表示，这些不足主要源于训练数据的覆盖范围限制，而非架构缺陷，将在未来版本中重点解决。

6 NEO模型的典型应用场景

6.1 金融保险领域

在金融保险行业，NEO模型能够高效处理非结构化数据，大幅提升理赔审核效率。传统保险理赔需要人工审核手写单据、模糊照片、电子发票等混杂材料，准确率不足60%，审核周期长达3-7天。

而基于NEO架构的系统能直接“看懂”混杂材料，自动检测风险点并交叉验证，将审核效率提升10倍以上。商汤“办公小浣熊”产品已验证这一能力：超过50%的企业用户上传多格式文件，30%为非标准格式，NEO架构的处理准确率仍保持在92%以上。

6.2 智能教育应用

教育领域是NEO模型的典型应用场景。传统“拍照搜题”应用只能给出最终答案，而基于NEO的AI家教能识别手写解题步骤，像老师一样圈出错误并循循善诱地讲解。

在某省级教育平台试点中，该系统使学生作业订正效率提升65%，家长辅导时间减少70%。通义千问APP已上线基于类似技术的Qwen3-Learning模型，支持拍照识别题目内容，兼容印刷体与手写体，覆盖小学至高中全学科作业批改与解题辅导。

6.3 工业质检与智能制造

NEO模型在工业质检领域展现出巨大价值。商汤已与比亚迪合作，将NEO-9B模型部署到汽车生产线的质检环节。传统人工检查车身焊接点，一个工人一天只能查50辆车；而搭载NEO的工业相机能实时识别焊接缺陷，准确率98%，效率提升10倍，还能自动生成质检报告。值得注意的是，NEO能结合焊接工艺的文本规范，区分正常纹路和缺陷，将误判率降低了80%。

6.4 智能终端与边缘计算

由于NEO模型极其高效，它能够在资源受限的边缘设备上运行，开启了一系列智能终端应用场景。杭州一家智能门锁公司使用NEO-2B模型优化“人脸+指纹”的融合验证系统：传统模型需要2秒识别且经常误判，而NEO仅用0.5秒，准确率提高到99.6%，显存占用从8G降到了2G，普通门锁芯片都能装下。这为智能家居、可穿戴设备等带来了前所未有的AI能力。

6.5 视频理解与分析

NEO的三维旋转位置编码使其天然适合视频理解任务。在测试中，商汤使用NEO处理30帧/秒的监控视频，能同时识别画面里的人物动作和字幕内容，延迟比传统模型降低60%。这一能力在智能安防、自动驾驶等领域具有重要应用价值。商汤正在研发“动态注意力压缩技术”，目标是进一步提升视频处理效率。

7 NEO模型能为用户带来的价值

7.1 对于开发者和研究机构

对于AI开发者和研究机构，NEO模型带来了多重价值：

大幅降低研发门槛：开源免费策略使中小团队也能获得顶级多模态能力
显著减少训练成本：仅需1/10数据量即可达到顶尖性能，降低数据收集和算力需求
强大边缘部署能力：使得将先进AI模型部署到资源受限设备成为可能
活跃的开源社区：商汤致力于构建围绕NEO的开源生态，提供持续技术支持

7.2 对于企业和行业用户

对于企业用户，NEO模型提供了切实可行的AI落地路径：

高性价比解决方案：在多项测试中，NEO将多模态模型的“性价比”提升了3倍以上
多行业适用性：已在金融、教育、工业、智能终端等多个领域得到验证
易于集成部署：提供完善的API接口和文档支持，降低集成难度
持续升级迭代：商汤已公布清晰的产品路线图，将持续优化和升级模型能力

7.3 对于终端用户

最终用户将从NEO模型的应用中间接获得体验提升：

更智能的产品体验：更精准的多模态交互使AI助手更像“伙伴”而非“工具”
更强的隐私保护：边缘部署能力使敏感数据可在本地处理，无需上传云端
更低的使用成本：高效推理意味着更低的计算资源消耗，最终降低产品价格
更广泛的应用场景：多模态AI将融入日常生活的各个角落，从智能家居到个性化教育

8 NEO模型最新重大更新动态（2025年12月）

2025年12月2日，商汤科技正式发布并开源了与南洋理工大学S-Lab联合研发的NEO原生多模态架构。这次发布被视为多模态AI领域的一个重要里程碑，标志着原生多模态架构从理论走向实践。 本次发布的核心内容包含：

开源模型发布：正式开源NEO-2.2B和NEO-9B两个规格的模型
技术论文公布：在arXiv上发表题为《从像素到文字——迈向大规模的原生视觉语言原始基元》的学术论文
完整工具链：提供VLMEvalKit等评估工具，支持开发者快速验证和迁移模型

商汤同时公布了NEO架构的未来发展路线图：

2026年第一季度：推出NEO-13B模型，重点解决文本识别和知识更新问题
2026年第二季度：研发稀疏架构的NEO-X，把参数规模扩大到100B，同时保持边缘部署能力
2026年底前：探索视频处理、具身智能等新场景，让机器人通过NEO“看懂”环境、“听懂”指令

此外，商汤正积极探索解决NEO当前的密集文本识别瓶颈，计划通过增加高质量文本密集型样本数据来提升相关能力。同时，为应对多模态伦理风险，商汤已组建专门的伦理委员会，建立“内容过滤-风险预警-应急响应”三级机制。

9 常见问题FAQ解答

9.1 NEO模型是否需要付费使用？

不需要。商汤NEO模型完全开源免费，基于Apache 2.0许可证发布，所有研究者、开发者和企业均可自由使用、修改和分发，无需支付任何许可费用。商汤未来可能推出基于NEO的云服务，但模型本身将保持开源。

9.2 NEO模型能否在消费级GPU上运行？

可以。NEO-2.2B模型仅需2GB显存即可运行，可在RTX 4090等消费级GPU上流畅推理。即使是参数更大的NEO-9B模型，也可通过量化压缩技术在24GB显存的消费级显卡上运行，这使得个人开发者和中小团队也能轻松使用。

9.3 NEO模型在处理中文多模态任务时表现如何？

NEO基于Qwen3-1.7B和Qwen3-8B两个基础语言模型构建，而Qwen系列在中文理解方面表现优异。在实际测试中，NEO在处理中文多模态任务（如中文文档理解、中文图文问答等）时表现出色，能够准确理解和生成中文内容。

9.4 NEO为何仅用1/10数据就能达到顶尖性能？

NEO的高数据效率源于其原生多模态架构设计。传统模块化模型需要学习视觉和语言模态之间的复杂映射关系，而NEO的原生设计让模型能够直接、自然地处理多模态信息，减少了中间转换环节的信息损失和学习难度。商汤AI研究院院长王晓刚比喻道：“这就像学习一门外语，传统方法是通过母语翻译，而NEO则像沉浸式学习，直接建立语言与概念的联系。”

9.5 NEO模型当前的主要局限性是什么？

NEO目前最主要的局限性是密集文本识别能力相对不足。在测试OCRBench时，NEO-9B的得分为77.7，低于InternVL3的88.0，尤其是在识别密集表格文字时容易出现错误。这一局限主要源于训练数据中高质量文本密集型样本的不足，商汤已在积极收集更多古籍、学术论文的图文数据，预计在明年推出的NEO-13B模型中大幅提升文本识别能力。

9.6 NEO模型支持视频处理吗？

支持。NEO的原生三维旋转位置编码(Native-RoPE)设计使其天然支持视频处理。商汤已用NEO进行过测试，能够处理30帧/秒的监控视频，同时识别画面里的人物动作和字幕内容。未来，商汤还计划进一步优化NEO的视频处理能力，目标是将视频处理效率再提升10倍。

10 总结

商汤NEO模型的发布标志着多模态AI技术正式从“模块化拼凑”迈入“原生统一”的新时代。这一创新架构通过底层技术的根本性革新，实现了仅用传统模型1/10的数据量就能达到顶尖性能的突破，同时大幅提升了模型的边缘部署能力。

NEO模型的核心价值在于其极高的数据效率、强大的边缘部署能力以及原生多模态融合设计。这些特性使得高性能多模态AI不再是少数巨头的专属，而是成为广大开发者、研究机构和企业都能轻松获取和使用的技术。从金融保险的文档理解到工业质检的视觉分析，从智能教育的个性化辅导到边缘设备的实时推理，NEO正在多个行业场景中创造实际价值。

对于整个AI行业而言，NEO的意义不仅在于技术性能的提升，更在于它打破了“多模态AI只能靠大算力堆出来”的偏见，为行业指明了更加高效、可持续的发展方向。正如商汤科技联合创始人林达华博士所言：“AI的终极目标是‘理解世界’，而理解世界需要同时懂图像、文字、声音、触觉——NEO只是第一步，但它证明了原生多模态架构是可行的。”

随着NEO开源生态的不断成熟和未来版本的持续迭代，我们有理由相信，多模态AI将更快地融入生活的各个角落，为各行各业带来前所未有的智能化变革。