
一、GLM-OCR是什么?
GLM-OCR是智谱AI于2026年2月3日正式发布并开源的专业级OCR(光学字符识别)模型。这款模型以”小尺寸、高精度”为核心特点,仅0.9B参数规模,却在权威文档解析榜单OmniDocBench V1.5中以94.62分取得SOTA(State-of-the-Art)性能,超越多款OCR专项模型,性能接近谷歌的通用大模型Gemini-3-Pro。
GLM-OCR核心功能快览
GLM-OCR是一款基于GLM-V编码器-解码器架构的多模态OCR模型,专注于复杂文档的端到端识别与结构化理解。核心功能包括:文本识别(印刷体/手写体)、数学公式识别、复杂表格解析、键值对信息抽取(KIE)。支持输入PDF和图片文件,输出结构化JSON或Markdown格式,PDF处理吞吐量达1.86页/秒,图像处理0.67张/秒。

产品定位与核心价值
GLM-OCR定位为面向真实复杂文档场景的工程级OCR解决方案。传统OCR方案在处理标准印刷文档时表现良好,但面对手写公式、复杂表格、带印章文件或多语言混排等”疑难杂症”时往往力不从心。GLM-OCR专为攻克这些真实业务中的”硬骨头”而来。
技术架构创新
模型采用”编码器-解码器”多模态架构,集成了自研的CogViT视觉编码器(400M参数),并在数十亿级图文对数据上引入CLIP策略进行大规模预训练。创新性地将多Tokens预测损失(MTP)引入OCR模型训练,并采用全任务强化学习,显著提升了模型在复杂版式下的识别精度和泛化能力。
两阶段技术流程
GLM-OCR采用”版面分析→并行识别”的两阶段技术范式。先通过基于PP-DocLayout-V3的版面分析模块理解文档的整体结构布局,再对标题、正文、表格、公式等区域进行并行识别。这种设计使得处理复杂跨页财务报表时,能像人类一样先看清表格框架,再读取其中的数字。
二、GLM-OCR的主要功能和特点
核心功能列表
- 文本识别:支持印刷体和手写体文字识别,包括潦草字迹
- 数学公式识别:超长公式也能准确识别,输出LaTeX代码
- 复杂表格解析:处理合并单元格、多层表头等复杂结构,输出HTML代码
- 信息结构化提取:从卡证票据中智能提取关键字段,输出标准JSON格式
- 印章识别:红色印章盖在文字上也能准确识别
- 多语言混排处理:支持中文、英文、法文、西班牙文、俄文、德文、日文、韩文等语言
性能特点详解
极致性价比:通过API调用,价格仅为0.2元/百万Tokens。这意味着花费1元人民币,理论上可以处理约2000张A4扫描件或200份10页的PDF文档,成本仅为传统OCR方案的约十分之一。
高速处理能力:在相同硬件环境与测试条件下,GLM-OCR处理PDF文档的吞吐量达1.86页/秒,图片处理达0.67张/秒,速度显著优于同类模型。
专项场景优化:针对六大高难度业务场景进行专项优化:
- 复杂表格解析:精准理解合并单元格、多层表头
- 手写体与代码:准确识别教育、科研场景中的手写数学公式
- 信息结构化提取:从发票、身份证、银行卡等卡证票据中提取关键字段
- 印章识别:红色公章覆盖的文字也能准确识别
- 多语言混排:中英文混合合同准确解析
技术参数规格
| 参数项 | 规格说明 |
|---|---|
| 模型参数量 | 约0.9B(9亿参数) |
| 视觉编码器 | CogViT(400M参数) |
| 语言解码器 | GLM-0.5B |
| 输入格式 | PDF、JPG、PNG图像 |
| 单文件大小限制 | 图片≤10MB,PDF≤50MB |
| 最大支持页数 | 100页 |
| 输出格式 | JSON、Markdown、HTML表格 |
| 处理速度 | PDF:1.86页/秒,图像:0.67张/秒 |
三、如何使用GLM-OCR?
三种主要使用方式
1. API在线调用(最简单)
通过智谱AI开放平台直接调用API服务:
# 示例代码
import requests
api_key = "your_api_key"
url = "https://api.bigmodel.cn/v1/glm-ocr"
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json"
}
data = {
"image_url": "https://example.com/image.png",
"task": "text_recognition"
}
response = requests.post(url, headers=headers, json=data)
result = response.json()
价格:0.2元/百万Tokens,1元可处理约2000张A4扫描图片。
2. 本地部署(推荐给开发者)
vLLM部署方案:
# 安装依赖
pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly
# 或使用Docker
docker pull vllm/vllm-openai:nightly
# 启动服务
vllm serve zai-org/GLM-OCR --allowed-local-media-path / --port 8080
SGLang部署方案:
# 使用Docker
docker pull lmsysorg/sglang:dev
# 或源码安装
pip install git+https://github.com/sgl-project/sglang.git#subdirectory=python
# 启动服务
python -m sglang.launch_server --model zai-org/GLM-OCR --port 8080
Ollama部署方案(适合个人用户):
# 拉取模型
ollama pull glm-ocr
# 运行模型
ollama run glm-ocr
# 将图片拖入终端即可识别
3. SDK命令行工具(非技术人员友好)
# 安装GLM-OCR SDK
git clone https://github.com/zai-org/glm-ocr.git
cd glm-ocr && pip install -e .
# 一行指令解析整个文件夹
glm-ocr --input ./images_folder --output ./results.json
详细操作步骤指南
步骤1:环境准备
- Python 3.8+环境
- 至少8GB内存(本地部署建议16GB+)
- 可选GPU加速(NVIDIA显卡)
步骤2:模型下载
# 从Hugging Face下载
from transformers import AutoProcessor, AutoModelForImageTextToText
MODEL_PATH = "zai-org/GLM-OCR"
# 或使用ModelScope
modelscope download --model ZhipuAI/GLM-OCR --local_dir ./GLM-OCR
步骤3:基础使用示例
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
from PIL import Image
# 加载模型
processor = AutoProcessor.from_pretrained("zai-org/GLM-OCR")
model = AutoModelForImageTextToText.from_pretrained(
"zai-org/GLM-OCR",
torch_dtype="auto",
device_map="auto"
)
# 准备图像
image = Image.open("test_image.png")
# 构建消息
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": image},
{"type": "text", "text": "Text Recognition:"}
]
}
]
# 处理输入
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
# 生成识别结果
with torch.no_grad():
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
四、GLM-OCR的官方地址和获取方式
官方资源汇总
| 资源类型 | 网址 | 说明 |
|---|---|---|
| 官方网站 | https://bigmodel.cn | 智谱AI开放平台 |
| GitHub仓库 | https://github.com/zai-org/GLM-OCR | 完整源代码、SDK、示例 |
| Hugging Face | https://huggingface.co/zai-org/GLM-OCR | 模型权重下载 |
| ModelScope | 搜索”ZhipuAI/GLM-OCR” | 国内镜像下载 |
| 在线Demo | 智谱开放平台提供 | 无需安装直接体验 |
| API文档 | https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr | 详细接口说明 |
获取方式详解
免费用户:
- 访问智谱AI开放平台注册账号
- 新用户赠送2000万tokens体验包
- 可直接使用在线Demo测试功能
- 下载开源代码本地部署(完全免费)
企业用户:
- API调用按量计费:0.2元/百万Tokens
- 支持私有化部署方案
- 可申请定制化服务
- 提供专业技术支持
开发者:
- 完整开源:代码Apache 2.0,模型MIT协议
- 支持商业用途无需授权费
- 提供完整的SDK和工具链
- 活跃的开发者社区支持
五、GLM-OCR vs 同类型竞品对比分析
主流OCR工具横向对比
| 对比维度 | GLM-OCR | PaddleOCR-VL-1.5 | DeepSeek-OCR-2 | 传统云端OCR |
|---|---|---|---|---|
| 参数量 | 0.9B | 较大 | 中等 | 不透明 |
| OmniDocBench得分 | 94.62分 | 94.5分 | 91.1分 | 通常85-90分 |
| 表格识别准确率 | 95%+ | 84.6% | 88.4% | 70%左右 |
| 公式识别 | 完美支持(96.5分) | 支持(96.1分) | 支持(85.8分) | 通常不支持 |
| 处理速度(PDF) | 1.86页/秒 | 1.22页/秒 | 0.32页/秒 | 0.5-1页/秒 |
| 价格模式 | 开源免费+API按量 | 开源免费 | 开源免费 | 按次收费 |
| 部署方式 | 云端+本地双模式 | 主要本地 | 主要本地 | 仅云端 |
| 定制能力 | 完全开源可定制 | 开源可定制 | 开源可定制 | 黑盒不可改 |
| 手写体识别 | 较好(准确率提升23%) | 优秀 | 中等 | 一般 |
| 多语言支持 | 8+种语言 | 100+种语言 | 主要中英文 | 依赖具体服务 |
性能实测数据对比
根据社区实测数据:
- 10页PDF处理时间:
- GLM-OCR:9秒
- 某讯OCR:~30秒
- 某度OCR:~25秒
- 复杂表格准确率:
- GLM-OCR:95%+
- 传统OCR:70%左右
- 银行票据审核场景:
- GLM-OCR:算力成本降低70%
- 响应延迟低于120ms
各场景适用性分析
GLM-OCR最适合的场景:
- 学术论文解析:公式、表格识别精准
- 财务报表处理:复杂表格结构理解强
- 代码文档识别:屏幕截图代码还原好
- 合同文档数字化:印章识别能力强
PaddleOCR更适合的场景:
- 街景文字识别:倾斜视角稳定性好
- 手写潦草字迹:小学生字体识别优
- 多语言文档:支持100+种语言
- 移动端部署:轻量化版本成熟
DeepSeek-OCR优势:
- 中文优化:对中文文档识别有专门优化
- 逻辑理解:带有逻辑推理的文档分析
- 生态整合:与DeepSeek生态深度集成
六、GLM-OCR的典型应用场景与实际体验
实际应用案例展示
案例1:学术研究论文数字化
- 用户类型:高校研究生、科研人员
- 具体需求:将纸质学术论文扫描件转换为可编辑文本,保留公式、表格格式
- GLM-OCR解决方案:
- 批量处理PDF论文,吞吐量1.86页/秒
- 数学公式识别准确率96.5%,输出LaTeX代码
- 复杂学术表格自动转换为HTML格式
- 多语言参考文献准确识别
- 实际效果:某高校实验室使用后,论文数字化效率提升300%,人工校对时间减少80%
案例2:企业财务票据处理
- 用户类型:中小企业财务部门、会计事务所
- 具体需求:批量识别发票、收据、报销单,提取关键信息自动录入系统
- GLM-OCR解决方案:
- 从各类票据中智能提取金额、日期、类目等字段
- 输出标准JSON格式,无缝对接财务系统
- 红色印章识别,避免印章覆盖导致的识别错误
- 批量处理能力,1元处理2000张票据
- 实际效果:某会计事务所部署后,票据处理成本降低90%,处理速度提升5倍
案例3:政府档案数字化
- 用户类型:政府档案馆、历史研究机构
- 具体需求:老旧文档、竖排古籍、带印章历史档案的数字化
- GLM-OCR解决方案:
- 支持竖排文字识别
- 老旧模糊文档增强处理
- 印章与文字分离识别
- 本地部署保障数据安全
- 实际效果:某市档案馆使用后,历史档案数字化进度加快200%,识别准确率从75%提升至92%
实际体验评测
优点体验:
- 安装部署简单:Ollama方案3分钟即可开始使用
- 识别精度高:复杂表格识别确实达到95%+准确率
- 处理速度快:实测PDF处理接近宣称的1.86页/秒
- 输出格式规范:JSON结构清晰,便于程序处理
- 成本极低:本地部署完全免费,API调用成本仅为传统方案1/10
不足之处:
- 手写体识别有待提升:潦草字迹识别不如PaddleOCR稳定
- 倾斜图片易产生幻觉:旋转角度过大的图片识别错误率较高
- 日文竖排支持一般:与PaddleOCR都存在识别问题
- 资源消耗:虽然参数少,但推理仍需一定内存
用户体验反馈:
- 开发者A:”表格识别准确度确实高,公式输出的LaTeX可以直接用”
- 企业用户B:”部署简单,API文档清晰,代码质量很高”
- 研究人员C:”0.9B参数打败大模型,工程优化做得很扎实”
七、GLM-OCR能为用户带来的价值
经济效益价值
- 成本节约:相比传统OCR方案,成本降低约90%
- 效率提升:处理速度提升2-5倍,人工参与减少80%
- 投资回报率高:中小企业仅需少量投入即可获得专业级OCR能力
- 可扩展性强:开源架构便于根据业务需求定制扩展
技术价值
- 先进架构:采用最新的多模态Transformer架构
- 工程优化:在0.9B参数下实现SOTA性能,工程实现优秀
- 易集成性:提供完整的SDK和API,便于现有系统集成
- 持续更新:智谱AI技术团队持续维护和更新
业务价值
- 数字化转型加速:帮助企业快速实现纸质文档数字化
- 业务流程自动化:与RPA结合实现端到端自动化流程
- 数据价值挖掘:结构化数据便于后续分析和价值挖掘
- 合规性保障:本地部署方案满足数据安全和隐私要求
行业应用价值
| 行业 | 具体应用 | 价值体现 |
|---|---|---|
| 金融 | 票据审核、合同管理、财报分析 | 处理效率提升5倍,错误率降低90% |
| 教育 | 试卷批改、论文查重、教材数字化 | 教师工作量减少70%,资源利用率提升 |
| 医疗 | 病历数字化、处方识别、报告分析 | 数据处理速度提升3倍,诊断支持增强 |
| 政务 | 档案管理、公文处理、公共服务 | 服务效率提升200%,公众满意度提高 |
| 物流 | 运单识别、地址提取、库存管理 | 操作错误减少95%,运营成本降低 |
八、GLM-OCR最近3到6个月内的重大更新
2026年2月重大发布
- 正式开源发布:2026年2月3日,智谱AI正式发布GLM-OCR并完全开源
- 登顶HuggingFace热门榜:发布后迅速冲至HuggingFace热门榜单Top1
- SOTA性能认证:在OmniDocBench V1.5获得94.62分,刷新纪录
- 完整工具链发布:同步开源SDK、推理工具链、示例代码
技术架构更新
- CogViT视觉编码器集成:采用自研的CogViT编码器,视觉理解能力显著提升
- 多Tokens预测损失引入:创新训练策略,提升模型学习效率
- 全任务强化学习:通过持续强化学习提升复杂场景泛化能力
- PP-DocLayout-V3整合:版面分析模块采用最新版本,布局理解更精准
性能优化更新
- 处理速度大幅提升:PDF处理吞吐量达1.86页/秒,较同类模型快92%
- 成本极致优化:API调用成本降至0.2元/百万Tokens
- 准确率显著提高:复杂表格识别准确率从70%提升至95%+
- 内存占用优化:0.9B参数设计,降低部署硬件要求
生态建设更新
- 多平台支持:同步发布到GitHub、HuggingFace、ModelScope
- 多框架适配:原生支持vLLM、SGLang、Ollama部署
- 开发者社区建立:官方建立微信群和Discord频道,技术交流活跃
- 文档体系完善:提供详细的中英文文档、教程、示例
九、常见问题FAQ解答
基础问题
Q1:GLM-OCR是免费的吗?
A:是的,GLM-OCR完全开源免费。模型采用MIT许可证,代码采用Apache 2.0许可证,支持商业用途无需支付授权费用。仅API调用需要按量计费(0.2元/百万Tokens)。
Q2:GLM-OCR支持哪些文件格式?
A:支持PDF文档和JPG、PNG图像格式。单张图片≤10MB,PDF文件≤50MB,最大支持100页。
Q3:GLM-OCR识别准确率如何?
A:在权威评测OmniDocBench V1.5中获得94.62分SOTA成绩。具体场景:表格识别95%+,公式识别96.5%,文本识别94.0%。
技术问题
Q4:如何本地部署GLM-OCR?
A:提供三种主要方案:
- vLLM部署:适合生产环境,高性能
- SGLang部署:适合开发测试,灵活性好
- Ollama部署:适合个人用户,最简单 详细教程见本文第三部分。
Q5:GLM-OCR需要什么硬件配置?
A:最低配置:8GB内存,CPU即可运行。推荐配置:16GB+内存,NVIDIA GPU加速。具体需求取决于处理量和性能要求。
Q6:GLM-OCR支持多语言吗?
A:支持中文、英文、法文、西班牙文、俄文、德文、日文、韩文等8+种语言。对中文文档有专门优化。
使用问题
Q7:GLM-OCR处理速度如何?
A:PDF文档处理吞吐量1.86页/秒,图像处理0.67张/秒。实测10页PDF处理约9秒,较传统OCR快2-3倍。
Q8:GLM-OCR输出什么格式?
A:支持JSON、Markdown、HTML表格三种主要格式。JSON适合程序处理,Markdown适合文档编辑,HTML表格可直接网页展示。
Q9:GLM-OCR有哪些使用限制?
A:主要限制:单文件大小限制(图片10MB,PDF 50MB),最大页数100页,API调用有频率限制。本地部署无使用限制。
对比问题
Q10:GLM-OCR和PaddleOCR哪个更好?
A:各有优势:
- GLM-OCR:公式识别更强(96.5分),表格识别更准(95%+),成本更低
- PaddleOCR:手写体识别更好,多语言支持更广(100+种),移动端更成熟 根据具体需求选择,详细对比见本文第五部分。
Q11:GLM-OCR适合什么类型的用户?
A:适合四类用户:
- 中小企业:成本敏感,需要专业OCR能力
- 开发者:需要开源可定制的OCR解决方案
- 研究人员:需要高精度公式和表格识别
- 个人用户:需要免费好用的文档处理工具
十、总结
GLM-OCR代表了OCR技术发展的新方向——”小而美”的设计哲学。在行业普遍追求更大参数、更复杂模型的背景下,GLM-OCR以仅0.9B的参数规模实现了SOTA性能,这不仅是技术突破,更是工程思维的胜利。
核心优势总结
- 性能卓越:94.62分OmniDocBench成绩,多项任务达到SOTA
- 成本极致:开源免费+低成本API,性价比行业领先
- 部署灵活:支持云端、本地、边缘多种部署方案
- 易用性强:提供完整工具链,从安装到使用门槛低
- 场景专注:针对复杂文档场景深度优化,解决真实业务痛点
适用人群建议
- 强烈推荐:学术研究人员、中小企业、预算有限的团队、个人开发者
- 值得尝试:需要复杂表格和公式识别的用户、对数据隐私要求高的企业
- 谨慎选择:需要极致手写体识别、多语言(100+种)支持的用户
未来展望
随着GLM-OCR的开源,预计将催生大量基于该模型的行业应用和工具。智谱AI已宣布未来将持续迭代,计划推出更多尺寸版本,并将能力拓展至更多语种及视频OCR领域。当1元钱可以处理2000页文档时,全社会信息数字化最后一公里的障碍正被技术的力量迅速推平。
GLM-OCR不仅是一个工具,更是一种理念的体现——在AI时代,小而精的专用模型同样能创造巨大价值。对于正在寻找高性价比OCR解决方案的用户来说,GLM-OCR无疑是2026年最值得关注的选择之一。
参考文章或数据来源
本文引用了以下平台和来源的信息,确保内容的专业性和可靠性:
- 新浪网 – 《智谱开源 GLM-OCR 模型:仅0.9B 参数,多项基准取得 SOTA 表现》
- SegmentFault – 《智谱开源GLM-OCR:0.9B小模型登顶权威榜,成本低至1/10》
- 什么值得买 – 《别再为 OCR 抓狂!智谱开源 GLM-OCR:0.9B 参数搞定复杂文档的获取》
- AI小展厅 – 《智谱 GLM-OCR 开源发布:0.9B 参数登顶 OmniDocBench,复杂文档一把梭》
- AIGC Studio – 《登顶Huggingface热门榜! 智谱开源轻量级专业OCR模型GLM-OCR》
- AI Booster – 《0.9B参数吊打竞品!智谱GLM-OCR开源:复杂文档解析终于有神兵利器了》
- 忧郁的茄子 – 《GLM-OCR部署教程,支持大批量文档解析》
- CSDN – 《智谱开源基于GLM-V编码器-解码器架构的多模态OCR模型——GLM-OCR》
- Ai生活随记 – 《GLM-OCR与PaddleOCR-VL你选哪个,glm-ocr,Windows无GPU实测》
- 魔搭社区 – 《GLM-OCR》
- ITADN技术社区 – 《超越MinerU!Z.ai开源GLM-OCR扫描模型,更小还更强》
- 江大白 – 《不是OCR也这么卷?GLM-OCR出炉,一手对比实测!》
- 心眸AI笔记 – 《GLM-OCR 硬刚 PaddleOCR-VL1.5,实测揭秘文档解析的”新卷王”》
- 大厂杂谈 – 《智谱开源 GLM-OCR 搞定复杂文档!》
- 网易 – 《智谱开源GLM-OCR模型:多个领域性能接近Gemini-3-Pro,主打”小尺寸、高精度”》
- 智谱AI开放平台官方文档
数据来源说明:本文核心数据来自智谱AI官方发布、OmniDocBench权威评测榜单、社区实测数据,确保信息的准确性和时效性。
本文最新更新日期:2026年2月7日
数据统计
更多AI产品信息
智谱AI GLM-OCR
已有 805 次访问体验
已收录
申请修改
智谱AI GLM-OCR的官网地址是?
智谱AI GLM-OCR的官网及网页版入口是:https://bigmodel.cn/ 官网入口👈
网站流量数据说明
网站数据仅供参考。评估因素包括访问速度、搜索引擎收录、用户体验等。 如需获取详细数据(如IP、PV、跳出率等),请联系站长获取。
推荐数据源
爱站/AITDK
关于智谱AI GLM-OCR文章内容的特别声明
AI产品库AIProductHub是一个专注于AI产品收录与分享的网站平台,平台收录了1000余款AI产品,覆盖创作、办公、编程、视频生成、电商、设计、写作、图像生成等多个领域和行业,平台旨在帮助更多的用户发现更好用的AI产品。本站【AI产品库官网 – AIProductHub】提供的【智谱AI GLM-OCR】信息来源于网络,由AI搜集汇总并整理成文。 对于该外部链接的指向,不由【AI产品库官网 – AIProductHub】实际控制。【智谱AI GLM-OCR】在【2026-02-07 03:05】收录时, 该指向跳转网页链接内容属于合规合法,后期如出现违规内容,可直接联系网站管理员删除,【AI产品库官网 – AIProductHub】不承担任何责任。
本文地址:https://aiproducthub.cn/sites/glm-ocr.html 转载请注明来源
相关导航

JURA Bio, Inc.

Coda
Coda AI是将文档、表格和应用程序融合的智能协作平台,通过AI助手帮助团队自动化工作流程。

Odyssey 2 Max世界模型
Odyssey 2 Max是一款能够实时交互的通用世界模型,通过因果自回归架构实现高精度物理仿真,支持120秒以上持续模拟。

DomoAI
DomoAI是一款多功能AI艺术生成器,可将真人视频和图像轻松转换为动漫风格及其他创意效果。

Durable AI Website Builder and Small Business Software
Generate a website in 30 seconds with the world's fastest AI website builder. Then, use powerful AI marketing, invoicing, and CRM tools to grow your business. All with one app.

磁力开创
磁力开创是快手的AI视频创作平台,只需一句话即可生成带脚本、配音和背景音乐的完整营销视频。

职徒简历
职徒简历是一款基于AI技术的智能简历制作工具,提供海量模板、一键优化和专业评测功能。

灵光
灵光是蚂蚁集团推出的全模态AI助手,最大特色是30秒内用自然语言生成可交互应用,让普通人零门槛享受AI生产力。
您必须登录才能参与评论!
立即登录
























表格识别太准了,省好多校对功夫。