2026-04-19 03:34

IBM发布Granite 4.0 3B Vision：企业文档理解专用AI模型

IBM于2026年3月31日发布Granite 4.0 3B Vision，这是一款紧凑型视觉语言模型（VLM），专为企业文档理解设计，擅长从复杂文档、表单和结构化视觉中可靠地提取信息。

该模型的核心能力包括：
1. 表格提取：准确解析文档图像中的复杂表格结构（多行多列等）
2. 图表理解：将图表和图形转换为结构化的机器可读格式、摘要或可执行代码
3. 语义键值对提取：识别和定位不同文档布局中语义上有意义的键值字段对

Granite 4.0 3B Vision采用LoRA适配器形式，搭载在Granite 4.0 Micro密集语言模型之上，保持视觉和语言的模块化设计，支持纯文本回退和无缝集成到混合管道中。模型支持独立使用或与Docling配合，增强文档处理管道的深度视觉理解能力。

技术亮点包括：
- ChartNet数据集：通过代码引导的数据增强方法构建的百万级多模态数据集，包含170万图表样本，覆盖24种图表类型和6个绘图库
- DeepStack架构：抽象视觉特征路由到早期层进行语义理解，高分辨率空间特征输入后期层保留细节
- 模块化设计：同一部署可服务多模态和纯文本工作负载

性能表现优异：在ChartNet基准测试中，Chart2Summary得分86.4%（所有评估模型中最高），Chart2CSV得分62.1%（仅次于Qwen3.5-9B的63.4%）。在表格提取方面，PubTablesV2得分为裁剪92.1、全页79.3，OmniDocBench为64.0，TableVQA为88.1，均领先所有评估模型。

参考来源：
https://huggingface.co/blog/ibm-granite/granite-4-vision
https://huggingface.co/ibm-granite/granite-4.0-3b-vision
https://arxiv.org/abs/2603.27064

热门AI工具推荐