IBM于2026年3月31日发布Granite 4.0 3B Vision,这是一款紧凑型视觉语言模型(VLM),专为企业文档理解设计,擅长从复杂文档、表单和结构化视觉中可靠地提取信息。
该模型的核心能力包括:
1. 表格提取:准确解析文档图像中的复杂表格结构(多行多列等)
2. 图表理解:将图表和图形转换为结构化的机器可读格式、摘要或可执行代码
3. 语义键值对提取:识别和定位不同文档布局中语义上有意义的键值字段对
Granite 4.0 3B Vision采用LoRA适配器形式,搭载在Granite 4.0 Micro密集语言模型之上,保持视觉和语言的模块化设计,支持纯文本回退和无缝集成到混合管道中。模型支持独立使用或与Docling配合,增强文档处理管道的深度视觉理解能力。
技术亮点包括:
- ChartNet数据集:通过代码引导的数据增强方法构建的百万级多模态数据集,包含170万图表样本,覆盖24种图表类型和6个绘图库
- DeepStack架构:抽象视觉特征路由到早期层进行语义理解,高分辨率空间特征输入后期层保留细节
- 模块化设计:同一部署可服务多模态和纯文本工作负载
性能表现优异:在ChartNet基准测试中,Chart2Summary得分86.4%(所有评估模型中最高),Chart2CSV得分62.1%(仅次于Qwen3.5-9B的63.4%)。在表格提取方面,PubTablesV2得分为裁剪92.1、全页79.3,OmniDocBench为64.0,TableVQA为88.1,均领先所有评估模型。
参考来源:
https://huggingface.co/blog/ibm-granite/granite-4-vision
https://huggingface.co/ibm-granite/granite-4.0-3b-vision
https://arxiv.org/abs/2603.27064









