
一、GLM-OCR是什么?
GLM-OCR是智谱AI于2026年2月3日正式发布并开源的专业级OCR(光学字符识别)模型。这款模型以”小尺寸、高精度”为核心特点,仅0.9B参数规模,却在权威文档解析榜单OmniDocBench V1.5中以94.62分取得SOTA(State-of-the-Art)性能,超越多款OCR专项模型,性能接近谷歌的通用大模型Gemini-3-Pro。
GLM-OCR核心功能快览
GLM-OCR是一款基于GLM-V编码器-解码器架构的多模态OCR模型,专注于复杂文档的端到端识别与结构化理解。核心功能包括:文本识别(印刷体/手写体)、数学公式识别、复杂表格解析、键值对信息抽取(KIE)。支持输入PDF和图片文件,输出结构化JSON或Markdown格式,PDF处理吞吐量达1.86页/秒,图像处理0.67张/秒。

产品定位与核心价值
GLM-OCR定位为面向真实复杂文档场景的工程级OCR解决方案。传统OCR方案在处理标准印刷文档时表现良好,但面对手写公式、复杂表格、带印章文件或多语言混排等”疑难杂症”时往往力不从心。GLM-OCR专为攻克这些真实业务中的”硬骨头”而来。
技术架构创新
模型采用”编码器-解码器”多模态架构,集成了自研的CogViT视觉编码器(400M参数),并在数十亿级图文对数据上引入CLIP策略进行大规模预训练。创新性地将多Tokens预测损失(MTP)引入OCR模型训练,并采用全任务强化学习,显著提升了模型在复杂版式下的识别精度和泛化能力。
两阶段技术流程
GLM-OCR采用”版面分析→并行识别”的两阶段技术范式。先通过基于PP-DocLayout-V3的版面分析模块理解文档的整体结构布局,再对标题、正文、表格、公式等区域进行并行识别。这种设计使得处理复杂跨页财务报表时,能像人类一样先看清表格框架,再读取其中的数字。
二、GLM-OCR的主要功能和特点
核心功能列表
- 文本识别:支持印刷体和手写体文字识别,包括潦草字迹
- 数学公式识别:超长公式也能准确识别,输出LaTeX代码
- 复杂表格解析:处理合并单元格、多层表头等复杂结构,输出HTML代码
- 信息结构化提取:从卡证票据中智能提取关键字段,输出标准JSON格式
- 印章识别:红色印章盖在文字上也能准确识别
- 多语言混排处理:支持中文、英文、法文、西班牙文、俄文、德文、日文、韩文等语言
性能特点详解
极致性价比:通过API调用,价格仅为0.2元/百万Tokens。这意味着花费1元人民币,理论上可以处理约2000张A4扫描件或200份10页的PDF文档,成本仅为传统OCR方案的约十分之一。
高速处理能力:在相同硬件环境与测试条件下,GLM-OCR处理PDF文档的吞吐量达1.86页/秒,图片处理达0.67张/秒,速度显著优于同类模型。
专项场景优化:针对六大高难度业务场景进行专项优化:
- 复杂表格解析:精准理解合并单元格、多层表头
- 手写体与代码:准确识别教育、科研场景中的手写数学公式
- 信息结构化提取:从发票、身份证、银行卡等卡证票据中提取关键字段
- 印章识别:红色公章覆盖的文字也能准确识别
- 多语言混排:中英文混合合同准确解析
技术参数规格
| 参数项 | 规格说明 |
|---|---|
| 模型参数量 | 约0.9B(9亿参数) |
| 视觉编码器 | CogViT(400M参数) |
| 语言解码器 | GLM-0.5B |
| 输入格式 | PDF、JPG、PNG图像 |
| 单文件大小限制 | 图片≤10MB,PDF≤50MB |
| 最大支持页数 | 100页 |
| 输出格式 | JSON、Markdown、HTML表格 |
| 处理速度 | PDF:1.86页/秒,图像:0.67张/秒 |
三、如何使用GLM-OCR?
三种主要使用方式
1. API在线调用(最简单)
通过智谱AI开放平台直接调用API服务:
# 示例代码
import requests
api_key = "your_api_key"
url = "https://api.bigmodel.cn/v1/glm-ocr"
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json"
}
data = {
"image_url": "https://example.com/image.png",
"task": "text_recognition"
}
response = requests.post(url, headers=headers, json=data)
result = response.json()
价格:0.2元/百万Tokens,1元可处理约2000张A4扫描图片。
2. 本地部署(推荐给开发者)
vLLM部署方案:
# 安装依赖
pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly
# 或使用Docker
docker pull vllm/vllm-openai:nightly
# 启动服务
vllm serve zai-org/GLM-OCR --allowed-local-media-path / --port 8080
SGLang部署方案:
# 使用Docker
docker pull lmsysorg/sglang:dev
# 或源码安装
pip install git+https://github.com/sgl-project/sglang.git#subdirectory=python
# 启动服务
python -m sglang.launch_server --model zai-org/GLM-OCR --port 8080
Ollama部署方案(适合个人用户):
# 拉取模型
ollama pull glm-ocr
# 运行模型
ollama run glm-ocr
# 将图片拖入终端即可识别
3. SDK命令行工具(非技术人员友好)
# 安装GLM-OCR SDK
git clone https://github.com/zai-org/glm-ocr.git
cd glm-ocr && pip install -e .
# 一行指令解析整个文件夹
glm-ocr --input ./images_folder --output ./results.json
详细操作步骤指南
步骤1:环境准备
- Python 3.8+环境
- 至少8GB内存(本地部署建议16GB+)
- 可选GPU加速(NVIDIA显卡)
步骤2:模型下载
# 从Hugging Face下载
from transformers import AutoProcessor, AutoModelForImageTextToText
MODEL_PATH = "zai-org/GLM-OCR"
# 或使用ModelScope
modelscope download --model ZhipuAI/GLM-OCR --local_dir ./GLM-OCR
步骤3:基础使用示例
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
from PIL import Image
# 加载模型
processor = AutoProcessor.from_pretrained("zai-org/GLM-OCR")
model = AutoModelForImageTextToText.from_pretrained(
"zai-org/GLM-OCR",
torch_dtype="auto",
device_map="auto"
)
# 准备图像
image = Image.open("test_image.png")
# 构建消息
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": image},
{"type": "text", "text": "Text Recognition:"}
]
}
]
# 处理输入
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
# 生成识别结果
with torch.no_grad():
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
generated_ids[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=False
)
print(output_text)
四、GLM-OCR的官方地址和获取方式
官方资源汇总
| 资源类型 | 网址 | 说明 |
|---|---|---|
| 官方网站 | https://bigmodel.cn | 智谱AI开放平台 |
| GitHub仓库 | https://github.com/zai-org/GLM-OCR | 完整源代码、SDK、示例 |
| Hugging Face | https://huggingface.co/zai-org/GLM-OCR | 模型权重下载 |
| ModelScope | 搜索”ZhipuAI/GLM-OCR” | 国内镜像下载 |
| 在线Demo | 智谱开放平台提供 | 无需安装直接体验 |
| API文档 | https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr | 详细接口说明 |
获取方式详解
免费用户:
- 访问智谱AI开放平台注册账号
- 新用户赠送2000万tokens体验包
- 可直接使用在线Demo测试功能
- 下载开源代码本地部署(完全免费)
企业用户:
- API调用按量计费:0.2元/百万Tokens
- 支持私有化部署方案
- 可申请定制化服务
- 提供专业技术支持
开发者:
- 完整开源:代码Apache 2.0,模型MIT协议
- 支持商业用途无需授权费
- 提供完整的SDK和工具链
- 活跃的开发者社区支持
五、GLM-OCR vs 同类型竞品对比分析
主流OCR工具横向对比
| 对比维度 | GLM-OCR | PaddleOCR-VL-1.5 | DeepSeek-OCR-2 | 传统云端OCR |
|---|---|---|---|---|
| 参数量 | 0.9B | 较大 | 中等 | 不透明 |
| OmniDocBench得分 | 94.62分 | 94.5分 | 91.1分 | 通常85-90分 |
| 表格识别准确率 | 95%+ | 84.6% | 88.4% | 70%左右 |
| 公式识别 | 完美支持(96.5分) | 支持(96.1分) | 支持(85.8分) | 通常不支持 |
| 处理速度(PDF) | 1.86页/秒 | 1.22页/秒 | 0.32页/秒 | 0.5-1页/秒 |
| 价格模式 | 开源免费+API按量 | 开源免费 | 开源免费 | 按次收费 |
| 部署方式 | 云端+本地双模式 | 主要本地 | 主要本地 | 仅云端 |
| 定制能力 | 完全开源可定制 | 开源可定制 | 开源可定制 | 黑盒不可改 |
| 手写体识别 | 较好(准确率提升23%) | 优秀 | 中等 | 一般 |
| 多语言支持 | 8+种语言 | 100+种语言 | 主要中英文 | 依赖具体服务 |
性能实测数据对比
根据社区实测数据:
- 10页PDF处理时间:
- GLM-OCR:9秒
- 某讯OCR:~30秒
- 某度OCR:~25秒
- 复杂表格准确率:
- GLM-OCR:95%+
- 传统OCR:70%左右
- 银行票据审核场景:
- GLM-OCR:算力成本降低70%
- 响应延迟低于120ms
各场景适用性分析
GLM-OCR最适合的场景:
- 学术论文解析:公式、表格识别精准
- 财务报表处理:复杂表格结构理解强
- 代码文档识别:屏幕截图代码还原好
- 合同文档数字化:印章识别能力强
PaddleOCR更适合的场景:
- 街景文字识别:倾斜视角稳定性好
- 手写潦草字迹:小学生字体识别优
- 多语言文档:支持100+种语言
- 移动端部署:轻量化版本成熟
DeepSeek-OCR优势:
- 中文优化:对中文文档识别有专门优化
- 逻辑理解:带有逻辑推理的文档分析
- 生态整合:与DeepSeek生态深度集成
六、GLM-OCR的典型应用场景与实际体验
实际应用案例展示
案例1:学术研究论文数字化
- 用户类型:高校研究生、科研人员
- 具体需求:将纸质学术论文扫描件转换为可编辑文本,保留公式、表格格式
- GLM-OCR解决方案:
- 批量处理PDF论文,吞吐量1.86页/秒
- 数学公式识别准确率96.5%,输出LaTeX代码
- 复杂学术表格自动转换为HTML格式
- 多语言参考文献准确识别
- 实际效果:某高校实验室使用后,论文数字化效率提升300%,人工校对时间减少80%
案例2:企业财务票据处理
- 用户类型:中小企业财务部门、会计事务所
- 具体需求:批量识别发票、收据、报销单,提取关键信息自动录入系统
- GLM-OCR解决方案:
- 从各类票据中智能提取金额、日期、类目等字段
- 输出标准JSON格式,无缝对接财务系统
- 红色印章识别,避免印章覆盖导致的识别错误
- 批量处理能力,1元处理2000张票据
- 实际效果:某会计事务所部署后,票据处理成本降低90%,处理速度提升5倍
案例3:政府档案数字化
- 用户类型:政府档案馆、历史研究机构
- 具体需求:老旧文档、竖排古籍、带印章历史档案的数字化
- GLM-OCR解决方案:
- 支持竖排文字识别
- 老旧模糊文档增强处理
- 印章与文字分离识别
- 本地部署保障数据安全
- 实际效果:某市档案馆使用后,历史档案数字化进度加快200%,识别准确率从75%提升至92%
实际体验评测
优点体验:
- 安装部署简单:Ollama方案3分钟即可开始使用
- 识别精度高:复杂表格识别确实达到95%+准确率
- 处理速度快:实测PDF处理接近宣称的1.86页/秒
- 输出格式规范:JSON结构清晰,便于程序处理
- 成本极低:本地部署完全免费,API调用成本仅为传统方案1/10
不足之处:
- 手写体识别有待提升:潦草字迹识别不如PaddleOCR稳定
- 倾斜图片易产生幻觉:旋转角度过大的图片识别错误率较高
- 日文竖排支持一般:与PaddleOCR都存在识别问题
- 资源消耗:虽然参数少,但推理仍需一定内存
用户体验反馈:
- 开发者A:”表格识别准确度确实高,公式输出的LaTeX可以直接用”
- 企业用户B:”部署简单,API文档清晰,代码质量很高”
- 研究人员C:”0.9B参数打败大模型,工程优化做得很扎实”
七、GLM-OCR能为用户带来的价值
经济效益价值
- 成本节约:相比传统OCR方案,成本降低约90%
- 效率提升:处理速度提升2-5倍,人工参与减少80%
- 投资回报率高:中小企业仅需少量投入即可获得专业级OCR能力
- 可扩展性强:开源架构便于根据业务需求定制扩展
技术价值
- 先进架构:采用最新的多模态Transformer架构
- 工程优化:在0.9B参数下实现SOTA性能,工程实现优秀
- 易集成性:提供完整的SDK和API,便于现有系统集成
- 持续更新:智谱AI技术团队持续维护和更新
业务价值
- 数字化转型加速:帮助企业快速实现纸质文档数字化
- 业务流程自动化:与RPA结合实现端到端自动化流程
- 数据价值挖掘:结构化数据便于后续分析和价值挖掘
- 合规性保障:本地部署方案满足数据安全和隐私要求
行业应用价值
| 行业 | 具体应用 | 价值体现 |
|---|---|---|
| 金融 | 票据审核、合同管理、财报分析 | 处理效率提升5倍,错误率降低90% |
| 教育 | 试卷批改、论文查重、教材数字化 | 教师工作量减少70%,资源利用率提升 |
| 医疗 | 病历数字化、处方识别、报告分析 | 数据处理速度提升3倍,诊断支持增强 |
| 政务 | 档案管理、公文处理、公共服务 | 服务效率提升200%,公众满意度提高 |
| 物流 | 运单识别、地址提取、库存管理 | 操作错误减少95%,运营成本降低 |
八、GLM-OCR最近3到6个月内的重大更新
2026年2月重大发布
- 正式开源发布:2026年2月3日,智谱AI正式发布GLM-OCR并完全开源
- 登顶HuggingFace热门榜:发布后迅速冲至HuggingFace热门榜单Top1
- SOTA性能认证:在OmniDocBench V1.5获得94.62分,刷新纪录
- 完整工具链发布:同步开源SDK、推理工具链、示例代码
技术架构更新
- CogViT视觉编码器集成:采用自研的CogViT编码器,视觉理解能力显著提升
- 多Tokens预测损失引入:创新训练策略,提升模型学习效率
- 全任务强化学习:通过持续强化学习提升复杂场景泛化能力
- PP-DocLayout-V3整合:版面分析模块采用最新版本,布局理解更精准
性能优化更新
- 处理速度大幅提升:PDF处理吞吐量达1.86页/秒,较同类模型快92%
- 成本极致优化:API调用成本降至0.2元/百万Tokens
- 准确率显著提高:复杂表格识别准确率从70%提升至95%+
- 内存占用优化:0.9B参数设计,降低部署硬件要求
生态建设更新
- 多平台支持:同步发布到GitHub、HuggingFace、ModelScope
- 多框架适配:原生支持vLLM、SGLang、Ollama部署
- 开发者社区建立:官方建立微信群和Discord频道,技术交流活跃
- 文档体系完善:提供详细的中英文文档、教程、示例
九、常见问题FAQ解答
基础问题
Q1:GLM-OCR是免费的吗?
A:是的,GLM-OCR完全开源免费。模型采用MIT许可证,代码采用Apache 2.0许可证,支持商业用途无需支付授权费用。仅API调用需要按量计费(0.2元/百万Tokens)。
Q2:GLM-OCR支持哪些文件格式?
A:支持PDF文档和JPG、PNG图像格式。单张图片≤10MB,PDF文件≤50MB,最大支持100页。
Q3:GLM-OCR识别准确率如何?
A:在权威评测OmniDocBench V1.5中获得94.62分SOTA成绩。具体场景:表格识别95%+,公式识别96.5%,文本识别94.0%。
技术问题
Q4:如何本地部署GLM-OCR?
A:提供三种主要方案:
- vLLM部署:适合生产环境,高性能
- SGLang部署:适合开发测试,灵活性好
- Ollama部署:适合个人用户,最简单 详细教程见本文第三部分。
Q5:GLM-OCR需要什么硬件配置?
A:最低配置:8GB内存,CPU即可运行。推荐配置:16GB+内存,NVIDIA GPU加速。具体需求取决于处理量和性能要求。
Q6:GLM-OCR支持多语言吗?
A:支持中文、英文、法文、西班牙文、俄文、德文、日文、韩文等8+种语言。对中文文档有专门优化。
使用问题
Q7:GLM-OCR处理速度如何?
A:PDF文档处理吞吐量1.86页/秒,图像处理0.67张/秒。实测10页PDF处理约9秒,较传统OCR快2-3倍。
Q8:GLM-OCR输出什么格式?
A:支持JSON、Markdown、HTML表格三种主要格式。JSON适合程序处理,Markdown适合文档编辑,HTML表格可直接网页展示。
Q9:GLM-OCR有哪些使用限制?
A:主要限制:单文件大小限制(图片10MB,PDF 50MB),最大页数100页,API调用有频率限制。本地部署无使用限制。
对比问题
Q10:GLM-OCR和PaddleOCR哪个更好?
A:各有优势:
- GLM-OCR:公式识别更强(96.5分),表格识别更准(95%+),成本更低
- PaddleOCR:手写体识别更好,多语言支持更广(100+种),移动端更成熟 根据具体需求选择,详细对比见本文第五部分。
Q11:GLM-OCR适合什么类型的用户?
A:适合四类用户:
- 中小企业:成本敏感,需要专业OCR能力
- 开发者:需要开源可定制的OCR解决方案
- 研究人员:需要高精度公式和表格识别
- 个人用户:需要免费好用的文档处理工具
十、总结
GLM-OCR代表了OCR技术发展的新方向——”小而美”的设计哲学。在行业普遍追求更大参数、更复杂模型的背景下,GLM-OCR以仅0.9B的参数规模实现了SOTA性能,这不仅是技术突破,更是工程思维的胜利。
核心优势总结
- 性能卓越:94.62分OmniDocBench成绩,多项任务达到SOTA
- 成本极致:开源免费+低成本API,性价比行业领先
- 部署灵活:支持云端、本地、边缘多种部署方案
- 易用性强:提供完整工具链,从安装到使用门槛低
- 场景专注:针对复杂文档场景深度优化,解决真实业务痛点
适用人群建议
- 强烈推荐:学术研究人员、中小企业、预算有限的团队、个人开发者
- 值得尝试:需要复杂表格和公式识别的用户、对数据隐私要求高的企业
- 谨慎选择:需要极致手写体识别、多语言(100+种)支持的用户
未来展望
随着GLM-OCR的开源,预计将催生大量基于该模型的行业应用和工具。智谱AI已宣布未来将持续迭代,计划推出更多尺寸版本,并将能力拓展至更多语种及视频OCR领域。当1元钱可以处理2000页文档时,全社会信息数字化最后一公里的障碍正被技术的力量迅速推平。
GLM-OCR不仅是一个工具,更是一种理念的体现——在AI时代,小而精的专用模型同样能创造巨大价值。对于正在寻找高性价比OCR解决方案的用户来说,GLM-OCR无疑是2026年最值得关注的选择之一。
参考文章或数据来源
本文引用了以下平台和来源的信息,确保内容的专业性和可靠性:
- 新浪网 – 《智谱开源 GLM-OCR 模型:仅0.9B 参数,多项基准取得 SOTA 表现》
- SegmentFault – 《智谱开源GLM-OCR:0.9B小模型登顶权威榜,成本低至1/10》
- 什么值得买 – 《别再为 OCR 抓狂!智谱开源 GLM-OCR:0.9B 参数搞定复杂文档的获取》
- AI小展厅 – 《智谱 GLM-OCR 开源发布:0.9B 参数登顶 OmniDocBench,复杂文档一把梭》
- AIGC Studio – 《登顶Huggingface热门榜! 智谱开源轻量级专业OCR模型GLM-OCR》
- AI Booster – 《0.9B参数吊打竞品!智谱GLM-OCR开源:复杂文档解析终于有神兵利器了》
- 忧郁的茄子 – 《GLM-OCR部署教程,支持大批量文档解析》
- CSDN – 《智谱开源基于GLM-V编码器-解码器架构的多模态OCR模型——GLM-OCR》
- Ai生活随记 – 《GLM-OCR与PaddleOCR-VL你选哪个,glm-ocr,Windows无GPU实测》
- 魔搭社区 – 《GLM-OCR》
- ITADN技术社区 – 《超越MinerU!Z.ai开源GLM-OCR扫描模型,更小还更强》
- 江大白 – 《不是OCR也这么卷?GLM-OCR出炉,一手对比实测!》
- 心眸AI笔记 – 《GLM-OCR 硬刚 PaddleOCR-VL1.5,实测揭秘文档解析的”新卷王”》
- 大厂杂谈 – 《智谱开源 GLM-OCR 搞定复杂文档!》
- 网易 – 《智谱开源GLM-OCR模型:多个领域性能接近Gemini-3-Pro,主打”小尺寸、高精度”》
- 智谱AI开放平台官方文档
数据来源说明:本文核心数据来自智谱AI官方发布、OmniDocBench权威评测榜单、社区实测数据,确保信息的准确性和时效性。
本文最新更新日期:2026年2月7日
数据统计
更多AI产品信息
智谱AI GLM-OCR
已有 6 次访问体验
已收录
申请修改
智谱AI GLM-OCR的官网地址是?
智谱AI GLM-OCR的官网及网页版入口是:https://bigmodel.cn/ 官网入口👈
网站流量数据说明
网站数据仅供参考。评估因素包括访问速度、搜索引擎收录、用户体验等。 如需获取详细数据(如IP、PV、跳出率等),请联系站长获取。
推荐数据源
爱站/AITDK
关于智谱AI GLM-OCR的特别声明
AI产品库AIProductHub是一个专注于AI产品收录与分享的网站平台,平台收录了1000余款AI产品,覆盖创作、办公、编程、视频生成、电商、设计、写作、图像生成等多个领域和行业,平台旨在帮助更多的用户发现更好用的AI产品。本站【AI产品库AIProductHub】提供的【智谱AI GLM-OCR】信息来源于网络。 对于该外部链接的指向,不由【AI产品库AIProductHub】实际控制。【智谱AI GLM-OCR】在【2026-02-07 03:05】收录时, 该网页内容属于合规合法,后期如出现违规内容,可直接联系网站管理员删除,【AI产品库AIProductHub】不承担任何责任。
本文地址:https://aiproducthub.cn/sites/glm-ocr.html 转载请注明来源
相关导航

The Exa API that retrieves the best, realtime data from the web to complement your AI

面试猫
面试猫是一款强大的AI面试助手,免费的AI面试实时辅助工具,支持实时语音识别、图片识别、智能辅助回答、多语言面试。全平台适用,助你轻松拿Offer🥳。

简单设计
简单设计是一款小红书图文生成器工具,也是小红书运营必备的AI创作助手。支持小红书文字转图片、小红书封面制作、小红书图文生成、小红书图片生成、小红书敏感词检测、AI一键生成小红书图文。还有海量小红书封面模板,帮你免费制作小红书爆款封面。

新火宝短剧
火宝短剧是开源AI短剧生成平台,实现从剧本生成、角色设计到视频合成的全流程自动化。
.jpg)
新蓝耘星河
GEO原生营销智能体,实现一个创意,多内容生成,全平台一键分发的全流程智能营销。

Napkin
Napkin AI是一款能将文本内容快速转换为高质量可视化图表的人工智能工具,让没有设计背景的用户也能轻松创建专业视觉内容。

新processon
ProcessOn是一款支持AI生成的在线作图工具,可实现多人实时协作,覆盖流程图、思维导图等数十种图表类型。

SkyReels
SkyReels是昆仑万维开发的AI视频创作平台,通过多模态大模型技术实现“一键成剧”,大幅降低专业视频制作门槛。
暂无评论...



















