智谱AI GLM-OCR

3小时前发布 6 0 0

GLM-OCR是智谱AI推出的开源专业OCR模型，0.9B参数实现SOTA性能，支持复杂表格、公式、多语言文档解析，免费商用。

收录时间：

2026-02-07

打开网站手机查看

AI Product Navigation AI产品库 # GLM-OCR # GLM-OCR下载 # GLM-OCR官网 # GLM-OCR教程 # 免费OCR工具 # 公式识别 # 开源OCR # 文档解析 # 智谱AI # 表格识别

智谱AI GLM-OCR

打开网站

一、GLM-OCR是什么？

GLM-OCR是智谱AI于2026年2月3日正式发布并开源的专业级OCR（光学字符识别）模型。这款模型以”小尺寸、高精度”为核心特点，仅0.9B参数规模，却在权威文档解析榜单OmniDocBench V1.5中以94.62分取得SOTA（State-of-the-Art）性能，超越多款OCR专项模型，性能接近谷歌的通用大模型Gemini-3-Pro。

GLM-OCR核心功能快览

GLM-OCR是一款基于GLM-V编码器-解码器架构的多模态OCR模型，专注于复杂文档的端到端识别与结构化理解。核心功能包括：文本识别（印刷体/手写体）、数学公式识别、复杂表格解析、键值对信息抽取（KIE）。支持输入PDF和图片文件，输出结构化JSON或Markdown格式，PDF处理吞吐量达1.86页/秒，图像处理0.67张/秒。

产品定位与核心价值

GLM-OCR定位为面向真实复杂文档场景的工程级OCR解决方案。传统OCR方案在处理标准印刷文档时表现良好，但面对手写公式、复杂表格、带印章文件或多语言混排等”疑难杂症”时往往力不从心。GLM-OCR专为攻克这些真实业务中的”硬骨头”而来。

技术架构创新

模型采用”编码器-解码器”多模态架构，集成了自研的CogViT视觉编码器（400M参数），并在数十亿级图文对数据上引入CLIP策略进行大规模预训练。创新性地将多Tokens预测损失（MTP）引入OCR模型训练，并采用全任务强化学习，显著提升了模型在复杂版式下的识别精度和泛化能力。

两阶段技术流程

GLM-OCR采用”版面分析→并行识别”的两阶段技术范式。先通过基于PP-DocLayout-V3的版面分析模块理解文档的整体结构布局，再对标题、正文、表格、公式等区域进行并行识别。这种设计使得处理复杂跨页财务报表时，能像人类一样先看清表格框架，再读取其中的数字。

二、GLM-OCR的主要功能和特点

核心功能列表

文本识别：支持印刷体和手写体文字识别，包括潦草字迹
数学公式识别：超长公式也能准确识别，输出LaTeX代码
复杂表格解析：处理合并单元格、多层表头等复杂结构，输出HTML代码
信息结构化提取：从卡证票据中智能提取关键字段，输出标准JSON格式
印章识别：红色印章盖在文字上也能准确识别
多语言混排处理：支持中文、英文、法文、西班牙文、俄文、德文、日文、韩文等语言

性能特点详解

极致性价比：通过API调用，价格仅为0.2元/百万Tokens。这意味着花费1元人民币，理论上可以处理约2000张A4扫描件或200份10页的PDF文档，成本仅为传统OCR方案的约十分之一。

高速处理能力：在相同硬件环境与测试条件下，GLM-OCR处理PDF文档的吞吐量达1.86页/秒，图片处理达0.67张/秒，速度显著优于同类模型。

专项场景优化：针对六大高难度业务场景进行专项优化：

复杂表格解析：精准理解合并单元格、多层表头
手写体与代码：准确识别教育、科研场景中的手写数学公式
信息结构化提取：从发票、身份证、银行卡等卡证票据中提取关键字段
印章识别：红色公章覆盖的文字也能准确识别
多语言混排：中英文混合合同准确解析

技术参数规格

参数项	规格说明
模型参数量	约0.9B（9亿参数）
视觉编码器	CogViT（400M参数）
语言解码器	GLM-0.5B
输入格式	PDF、JPG、PNG图像
单文件大小限制	图片≤10MB，PDF≤50MB
最大支持页数	100页
输出格式	JSON、Markdown、HTML表格
处理速度	PDF：1.86页/秒，图像：0.67张/秒

三、如何使用GLM-OCR？

三种主要使用方式

1. API在线调用（最简单）

通过智谱AI开放平台直接调用API服务：

# 示例代码
import requests

api_key = "your_api_key"
url = "https://api.bigmodel.cn/v1/glm-ocr"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json"
}

data = {
    "image_url": "https://example.com/image.png",
    "task": "text_recognition"
}

response = requests.post(url, headers=headers, json=data)
result = response.json()

价格：0.2元/百万Tokens，1元可处理约2000张A4扫描图片。

2. 本地部署（推荐给开发者）

vLLM部署方案：

# 安装依赖
pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly

# 或使用Docker
docker pull vllm/vllm-openai:nightly

# 启动服务
vllm serve zai-org/GLM-OCR --allowed-local-media-path / --port 8080

SGLang部署方案：

# 使用Docker
docker pull lmsysorg/sglang:dev

# 或源码安装
pip install git+https://github.com/sgl-project/sglang.git#subdirectory=python

# 启动服务
python -m sglang.launch_server --model zai-org/GLM-OCR --port 8080

Ollama部署方案（适合个人用户）：

# 拉取模型
ollama pull glm-ocr

# 运行模型
ollama run glm-ocr
# 将图片拖入终端即可识别

3. SDK命令行工具（非技术人员友好）

# 安装GLM-OCR SDK
git clone https://github.com/zai-org/glm-ocr.git
cd glm-ocr && pip install -e .

# 一行指令解析整个文件夹
glm-ocr --input ./images_folder --output ./results.json

详细操作步骤指南

步骤1：环境准备

Python 3.8+环境
至少8GB内存（本地部署建议16GB+）
可选GPU加速（NVIDIA显卡）

步骤2：模型下载

# 从Hugging Face下载
from transformers import AutoProcessor, AutoModelForImageTextToText
MODEL_PATH = "zai-org/GLM-OCR"

# 或使用ModelScope
modelscope download --model ZhipuAI/GLM-OCR --local_dir ./GLM-OCR

步骤3：基础使用示例

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
from PIL import Image

# 加载模型
processor = AutoProcessor.from_pretrained("zai-org/GLM-OCR")
model = AutoModelForImageTextToText.from_pretrained(
    "zai-org/GLM-OCR",
    torch_dtype="auto",
    device_map="auto"
)

# 准备图像
image = Image.open("test_image.png")

# 构建消息
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "Text Recognition:"}
        ]
    }
]

# 处理输入
inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

# 生成识别结果
with torch.no_grad():
    generated_ids = model.generate(**inputs, max_new_tokens=8192)
    
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:],
    skip_special_tokens=False
)
print(output_text)

四、GLM-OCR的官方地址和获取方式

官方资源汇总

资源类型	网址	说明
官方网站	https://bigmodel.cn	智谱AI开放平台
GitHub仓库	https://github.com/zai-org/GLM-OCR	完整源代码、SDK、示例
Hugging Face	https://huggingface.co/zai-org/GLM-OCR	模型权重下载
ModelScope	搜索”ZhipuAI/GLM-OCR”	国内镜像下载
在线Demo	智谱开放平台提供	无需安装直接体验
API文档	https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr	详细接口说明

获取方式详解

免费用户：

访问智谱AI开放平台注册账号
新用户赠送2000万tokens体验包
可直接使用在线Demo测试功能
下载开源代码本地部署（完全免费）

企业用户：

API调用按量计费：0.2元/百万Tokens
支持私有化部署方案
可申请定制化服务
提供专业技术支持

开发者：

完整开源：代码Apache 2.0，模型MIT协议
支持商业用途无需授权费
提供完整的SDK和工具链
活跃的开发者社区支持

五、GLM-OCR vs 同类型竞品对比分析

主流OCR工具横向对比

对比维度	GLM-OCR	PaddleOCR-VL-1.5	DeepSeek-OCR-2	传统云端OCR
参数量	0.9B	较大	中等	不透明
OmniDocBench得分	94.62分	94.5分	91.1分	通常85-90分
表格识别准确率	95%+	84.6%	88.4%	70%左右
公式识别	完美支持（96.5分）	支持（96.1分）	支持（85.8分）	通常不支持
处理速度（PDF）	1.86页/秒	1.22页/秒	0.32页/秒	0.5-1页/秒
价格模式	开源免费+API按量	开源免费	开源免费	按次收费
部署方式	云端+本地双模式	主要本地	主要本地	仅云端
定制能力	完全开源可定制	开源可定制	开源可定制	黑盒不可改
手写体识别	较好（准确率提升23%）	优秀	中等	一般
多语言支持	8+种语言	100+种语言	主要中英文	依赖具体服务

性能实测数据对比

根据社区实测数据：

10页PDF处理时间：
- GLM-OCR：9秒
- 某讯OCR：~30秒
- 某度OCR：~25秒
复杂表格准确率：
- GLM-OCR：95%+
- 传统OCR：70%左右
银行票据审核场景：
- GLM-OCR：算力成本降低70%
- 响应延迟低于120ms

各场景适用性分析

GLM-OCR最适合的场景：

学术论文解析：公式、表格识别精准
财务报表处理：复杂表格结构理解强
代码文档识别：屏幕截图代码还原好
合同文档数字化：印章识别能力强

PaddleOCR更适合的场景：

街景文字识别：倾斜视角稳定性好
手写潦草字迹：小学生字体识别优
多语言文档：支持100+种语言
移动端部署：轻量化版本成熟

DeepSeek-OCR优势：

中文优化：对中文文档识别有专门优化
逻辑理解：带有逻辑推理的文档分析
生态整合：与DeepSeek生态深度集成

六、GLM-OCR的典型应用场景与实际体验

实际应用案例展示

案例1：学术研究论文数字化

用户类型：高校研究生、科研人员
具体需求：将纸质学术论文扫描件转换为可编辑文本，保留公式、表格格式
GLM-OCR解决方案：
- 批量处理PDF论文，吞吐量1.86页/秒
- 数学公式识别准确率96.5%，输出LaTeX代码
- 复杂学术表格自动转换为HTML格式
- 多语言参考文献准确识别
实际效果：某高校实验室使用后，论文数字化效率提升300%，人工校对时间减少80%

案例2：企业财务票据处理

用户类型：中小企业财务部门、会计事务所
具体需求：批量识别发票、收据、报销单，提取关键信息自动录入系统
GLM-OCR解决方案：
- 从各类票据中智能提取金额、日期、类目等字段
- 输出标准JSON格式，无缝对接财务系统
- 红色印章识别，避免印章覆盖导致的识别错误
- 批量处理能力，1元处理2000张票据
实际效果：某会计事务所部署后，票据处理成本降低90%，处理速度提升5倍

案例3：政府档案数字化

用户类型：政府档案馆、历史研究机构
具体需求：老旧文档、竖排古籍、带印章历史档案的数字化
GLM-OCR解决方案：
- 支持竖排文字识别
- 老旧模糊文档增强处理
- 印章与文字分离识别
- 本地部署保障数据安全
实际效果：某市档案馆使用后，历史档案数字化进度加快200%，识别准确率从75%提升至92%

实际体验评测

优点体验：

安装部署简单：Ollama方案3分钟即可开始使用
识别精度高：复杂表格识别确实达到95%+准确率
处理速度快：实测PDF处理接近宣称的1.86页/秒
输出格式规范：JSON结构清晰，便于程序处理
成本极低：本地部署完全免费，API调用成本仅为传统方案1/10

不足之处：

手写体识别有待提升：潦草字迹识别不如PaddleOCR稳定
倾斜图片易产生幻觉：旋转角度过大的图片识别错误率较高
日文竖排支持一般：与PaddleOCR都存在识别问题
资源消耗：虽然参数少，但推理仍需一定内存

用户体验反馈：

开发者A：”表格识别准确度确实高，公式输出的LaTeX可以直接用”
企业用户B：”部署简单，API文档清晰，代码质量很高”
研究人员C：”0.9B参数打败大模型，工程优化做得很扎实”

七、GLM-OCR能为用户带来的价值

经济效益价值

成本节约：相比传统OCR方案，成本降低约90%
效率提升：处理速度提升2-5倍，人工参与减少80%
投资回报率高：中小企业仅需少量投入即可获得专业级OCR能力
可扩展性强：开源架构便于根据业务需求定制扩展

技术价值

先进架构：采用最新的多模态Transformer架构
工程优化：在0.9B参数下实现SOTA性能，工程实现优秀
易集成性：提供完整的SDK和API，便于现有系统集成
持续更新：智谱AI技术团队持续维护和更新

业务价值

数字化转型加速：帮助企业快速实现纸质文档数字化
业务流程自动化：与RPA结合实现端到端自动化流程
数据价值挖掘：结构化数据便于后续分析和价值挖掘
合规性保障：本地部署方案满足数据安全和隐私要求

行业应用价值

行业	具体应用	价值体现
金融	票据审核、合同管理、财报分析	处理效率提升5倍，错误率降低90%
教育	试卷批改、论文查重、教材数字化	教师工作量减少70%，资源利用率提升
医疗	病历数字化、处方识别、报告分析	数据处理速度提升3倍，诊断支持增强
政务	档案管理、公文处理、公共服务	服务效率提升200%，公众满意度提高
物流	运单识别、地址提取、库存管理	操作错误减少95%，运营成本降低

八、GLM-OCR最近3到6个月内的重大更新

2026年2月重大发布

正式开源发布：2026年2月3日，智谱AI正式发布GLM-OCR并完全开源
登顶HuggingFace热门榜：发布后迅速冲至HuggingFace热门榜单Top1
SOTA性能认证：在OmniDocBench V1.5获得94.62分，刷新纪录
完整工具链发布：同步开源SDK、推理工具链、示例代码

技术架构更新

CogViT视觉编码器集成：采用自研的CogViT编码器，视觉理解能力显著提升
多Tokens预测损失引入：创新训练策略，提升模型学习效率
全任务强化学习：通过持续强化学习提升复杂场景泛化能力
PP-DocLayout-V3整合：版面分析模块采用最新版本，布局理解更精准

性能优化更新

处理速度大幅提升：PDF处理吞吐量达1.86页/秒，较同类模型快92%
成本极致优化：API调用成本降至0.2元/百万Tokens
准确率显著提高：复杂表格识别准确率从70%提升至95%+
内存占用优化：0.9B参数设计，降低部署硬件要求

生态建设更新

多平台支持：同步发布到GitHub、HuggingFace、ModelScope
多框架适配：原生支持vLLM、SGLang、Ollama部署
开发者社区建立：官方建立微信群和Discord频道，技术交流活跃
文档体系完善：提供详细的中英文文档、教程、示例

九、常见问题FAQ解答

基础问题

Q1：GLM-OCR是免费的吗？

A：是的，GLM-OCR完全开源免费。模型采用MIT许可证，代码采用Apache 2.0许可证，支持商业用途无需支付授权费用。仅API调用需要按量计费（0.2元/百万Tokens）。

Q2：GLM-OCR支持哪些文件格式？

A：支持PDF文档和JPG、PNG图像格式。单张图片≤10MB，PDF文件≤50MB，最大支持100页。

Q3：GLM-OCR识别准确率如何？

A：在权威评测OmniDocBench V1.5中获得94.62分SOTA成绩。具体场景：表格识别95%+，公式识别96.5%，文本识别94.0%。

技术问题

Q4：如何本地部署GLM-OCR？

A：提供三种主要方案：

vLLM部署：适合生产环境，高性能
SGLang部署：适合开发测试，灵活性好
Ollama部署：适合个人用户，最简单详细教程见本文第三部分。

Q5：GLM-OCR需要什么硬件配置？

A：最低配置：8GB内存，CPU即可运行。推荐配置：16GB+内存，NVIDIA GPU加速。具体需求取决于处理量和性能要求。

Q6：GLM-OCR支持多语言吗？

A：支持中文、英文、法文、西班牙文、俄文、德文、日文、韩文等8+种语言。对中文文档有专门优化。

使用问题

Q7：GLM-OCR处理速度如何？

A：PDF文档处理吞吐量1.86页/秒，图像处理0.67张/秒。实测10页PDF处理约9秒，较传统OCR快2-3倍。

Q8：GLM-OCR输出什么格式？

A：支持JSON、Markdown、HTML表格三种主要格式。JSON适合程序处理，Markdown适合文档编辑，HTML表格可直接网页展示。

Q9：GLM-OCR有哪些使用限制？

A：主要限制：单文件大小限制（图片10MB，PDF 50MB），最大页数100页，API调用有频率限制。本地部署无使用限制。

对比问题

Q10：GLM-OCR和PaddleOCR哪个更好？

A：各有优势：

GLM-OCR：公式识别更强（96.5分），表格识别更准（95%+），成本更低
PaddleOCR：手写体识别更好，多语言支持更广（100+种），移动端更成熟根据具体需求选择，详细对比见本文第五部分。

Q11：GLM-OCR适合什么类型的用户？

A：适合四类用户：

中小企业：成本敏感，需要专业OCR能力
开发者：需要开源可定制的OCR解决方案
研究人员：需要高精度公式和表格识别
个人用户：需要免费好用的文档处理工具

十、总结

GLM-OCR代表了OCR技术发展的新方向——”小而美”的设计哲学。在行业普遍追求更大参数、更复杂模型的背景下，GLM-OCR以仅0.9B的参数规模实现了SOTA性能，这不仅是技术突破，更是工程思维的胜利。

核心优势总结

性能卓越：94.62分OmniDocBench成绩，多项任务达到SOTA
成本极致：开源免费+低成本API，性价比行业领先
部署灵活：支持云端、本地、边缘多种部署方案
易用性强：提供完整工具链，从安装到使用门槛低
场景专注：针对复杂文档场景深度优化，解决真实业务痛点

适用人群建议

强烈推荐：学术研究人员、中小企业、预算有限的团队、个人开发者
值得尝试：需要复杂表格和公式识别的用户、对数据隐私要求高的企业
谨慎选择：需要极致手写体识别、多语言（100+种）支持的用户

未来展望

随着GLM-OCR的开源，预计将催生大量基于该模型的行业应用和工具。智谱AI已宣布未来将持续迭代，计划推出更多尺寸版本，并将能力拓展至更多语种及视频OCR领域。当1元钱可以处理2000页文档时，全社会信息数字化最后一公里的障碍正被技术的力量迅速推平。

GLM-OCR不仅是一个工具，更是一种理念的体现——在AI时代，小而精的专用模型同样能创造巨大价值。对于正在寻找高性价比OCR解决方案的用户来说，GLM-OCR无疑是2026年最值得关注的选择之一。

参考文章或数据来源

本文引用了以下平台和来源的信息，确保内容的专业性和可靠性：

新浪网 – 《智谱开源 GLM-OCR 模型:仅0.9B 参数,多项基准取得 SOTA 表现》
SegmentFault – 《智谱开源GLM-OCR:0.9B小模型登顶权威榜,成本低至1/10》
什么值得买 – 《别再为 OCR 抓狂!智谱开源 GLM-OCR:0.9B 参数搞定复杂文档的获取》
AI小展厅 – 《智谱 GLM-OCR 开源发布:0.9B 参数登顶 OmniDocBench,复杂文档一把梭》
AIGC Studio – 《登顶Huggingface热门榜! 智谱开源轻量级专业OCR模型GLM-OCR》
AI Booster – 《0.9B参数吊打竞品!智谱GLM-OCR开源:复杂文档解析终于有神兵利器了》
忧郁的茄子 – 《GLM-OCR部署教程,支持大批量文档解析》
CSDN – 《智谱开源基于GLM-V编码器-解码器架构的多模态OCR模型——GLM-OCR》
Ai生活随记 – 《GLM-OCR与PaddleOCR-VL你选哪个,glm-ocr,Windows无GPU实测》
魔搭社区 – 《GLM-OCR》
ITADN技术社区 – 《超越MinerU!Z.ai开源GLM-OCR扫描模型,更小还更强》
江大白 – 《不是OCR也这么卷?GLM-OCR出炉,一手对比实测!》
心眸AI笔记 – 《GLM-OCR 硬刚 PaddleOCR-VL1.5,实测揭秘文档解析的”新卷王”》
大厂杂谈 – 《智谱开源 GLM-OCR 搞定复杂文档!》
网易 – 《智谱开源GLM-OCR模型:多个领域性能接近Gemini-3-Pro,主打”小尺寸、高精度”》
智谱AI开放平台官方文档

数据来源说明：本文核心数据来自智谱AI官方发布、OmniDocBench权威评测榜单、社区实测数据，确保信息的准确性和时效性。

本文最新更新日期：2026年2月7日

数据统计

立即登录

暂无评论...

智谱AI GLM-OCR

一、GLM-OCR是什么？

GLM-OCR核心功能快览

产品定位与核心价值

技术架构创新

两阶段技术流程

二、GLM-OCR的主要功能和特点

核心功能列表

性能特点详解

技术参数规格

三、如何使用GLM-OCR？

三种主要使用方式

1. API在线调用（最简单）

2. 本地部署（推荐给开发者）

3. SDK命令行工具（非技术人员友好）

详细操作步骤指南

四、GLM-OCR的官方地址和获取方式

官方资源汇总

获取方式详解

五、GLM-OCR vs 同类型竞品对比分析

主流OCR工具横向对比

性能实测数据对比

各场景适用性分析

六、GLM-OCR的典型应用场景与实际体验

实际应用案例展示

实际体验评测

七、GLM-OCR能为用户带来的价值

经济效益价值

技术价值

业务价值

行业应用价值

八、GLM-OCR最近3到6个月内的重大更新

2026年2月重大发布

技术架构更新

性能优化更新

生态建设更新

九、常见问题FAQ解答

基础问题

技术问题

使用问题

对比问题

十、总结

核心优势总结

适用人群建议

未来展望

参考文章或数据来源

数据统计

更多AI产品信息

智谱AI GLM-OCR

智谱AI GLM-OCR的官网地址是？

智谱AI GLM-OCR 权重信息查询

5118数据

爱站数据

站长之家

AITDK

网站流量数据说明

相关导航

Exa.ai

面试猫

简单设计

新火宝短剧

新蓝耘星河

Napkin

新processon

SkyReels

暂无评论

精选AI工具

热门AI工具Top20

☑️热搜问题

最新收录

新WeMeet AI智能体

新OpenAI Codex app

新Claude Opus 4.6

新智谱AI GLM-OCR

新Anthropic Claude Cowork

AI产品日搜榜

Xiaomi MiMo Studio

AnyGen

有戏AI

Kimi PPT助手使用教程 – 从主题输入到成品PPT下载全流程