NVIDIA发布Nemotron OCR v2,这是一款既准确又快速的多语言OCR模型,通过合成数据训练实现,在单个A100 GPU上达到34.7页/秒的处理速度。
核心突破在于合成数据管道。传统OCR模型训练需要大量标注的图像-文本对:图像带有精确的边界框、转录和阅读顺序信息。现有基准数据集(如ICDAR和Total-Text)标签干净但规模有限,通常只有数万张图像,偏向英语和中文。手动标注质量最高但昂贵且慢,网络抓取的PDF嵌入文本往往嘈杂。
合成数据生成提供了突破方案:通过程序化将文本渲染到图像上,既获得网络抓取的规模,又拥有手工标注的标签纯度。每个边界框、转录和阅读顺序关系都是已知的,完全控制布局、字体样式和边缘情况。
技术架构:共享检测骨干网络,特征被识别器和关系模型复用,消除冗余计算。模型支持多级边界框(词、行、段落),包括轴对齐边界框和4点四边形,以及编码阅读顺序的关系图。
数据管道使用mOSCAR大规模多语言网络语料库作为源文本(覆盖163种语言子集),并基于改进的SynthDoG渲染引擎,支持多级边界框、关系图、多样化布局模式(多栏文本、表格、目录页、幻灯片等)、CJK行级识别。
性能提升显著:使用1200万张跨6种语言的合成训练图像,非英语语言的归一化编辑距离(NED)从0.56-0.92降至0.035-0.069。模型和数据集已在Hugging Face公开。
参考来源:
https://huggingface.co/blog/nvidia/nemotron-ocr-v2
https://huggingface.co/nvidia/nemotron-ocr-v2
https://huggingface.co/datasets/nvidia/OCR-Synthetic-Multilingual-v1









