2026-04-19 03:35

NVIDIA发布Nemotron OCR v2：合成数据驱动的快速多语言OCR模型

NVIDIA发布Nemotron OCR v2，这是一款既准确又快速的多语言OCR模型，通过合成数据训练实现，在单个A100 GPU上达到34.7页/秒的处理速度。

核心突破在于合成数据管道。传统OCR模型训练需要大量标注的图像-文本对：图像带有精确的边界框、转录和阅读顺序信息。现有基准数据集（如ICDAR和Total-Text）标签干净但规模有限，通常只有数万张图像，偏向英语和中文。手动标注质量最高但昂贵且慢，网络抓取的PDF嵌入文本往往嘈杂。

合成数据生成提供了突破方案：通过程序化将文本渲染到图像上，既获得网络抓取的规模，又拥有手工标注的标签纯度。每个边界框、转录和阅读顺序关系都是已知的，完全控制布局、字体样式和边缘情况。

技术架构：共享检测骨干网络，特征被识别器和关系模型复用，消除冗余计算。模型支持多级边界框（词、行、段落），包括轴对齐边界框和4点四边形，以及编码阅读顺序的关系图。

数据管道使用mOSCAR大规模多语言网络语料库作为源文本（覆盖163种语言子集），并基于改进的SynthDoG渲染引擎，支持多级边界框、关系图、多样化布局模式（多栏文本、表格、目录页、幻灯片等）、CJK行级识别。

性能提升显著：使用1200万张跨6种语言的合成训练图像，非英语语言的归一化编辑距离（NED）从0.56-0.92降至0.035-0.069。模型和数据集已在Hugging Face公开。

参考来源：
https://huggingface.co/blog/nvidia/nemotron-ocr-v2
https://huggingface.co/nvidia/nemotron-ocr-v2
https://huggingface.co/datasets/nvidia/OCR-Synthetic-Multilingual-v1

热门AI工具推荐