文档解析技术的新里程碑
2026 年 1 月 29 日,百度 PaddlePaddle 团队发布了 PaddleOCR-VL-1.5,一个仅有 0.9B(9 亿)参数的多任务视觉语言模型(VLM),在 OmniDocBench v1.5 基准测试中取得 94.5% 的准确率,创造了新的 SOTA(State-of-the-Art)记录。
更令人瞩目的是,这个轻量级模型在真实场景鲁棒性测试中超越了参数量大得多的通用 VLM,如 Qwen3-VL-235B 和 Gemini-3 Pro。
PaddleOCR-VL-1.5 代表了文档解析技术的范式转变:从单纯的文本识别到表格、公式、图表和印章的统一解析;从理想条件下的识别到处理扫描、倾斜、变形和屏幕拍照等真实场景。这标志着文档解析技术正式进入"实用性"和"智能化"的新时代。
核心亮点
1. 超轻量级架构与 SOTA 性能
PaddleOCR-VL-1.5 最引人注目的特性是其极高的参数效率。仅用 0.9B 参数就在 OmniDocBench v1.5 上取得 94.5% 的准确率,超越了其前代产品,并在与大型通用 VLM 的对比中展现出显著优势:
- vs. Qwen3-VL-235B:参数量仅为 1/260,但文档解析性能更优
- vs. Gemini-3 Pro:在真实场景测试中性能更稳定
- vs. 专业模型:在表格、公式和文本识别上有显著提升
这种参数效率源于 PaddlePaddle 团队对文档解析任务的深刻理解和精心设计。该模型采用 NaViT 风格的动态分辨率视觉编码器,配合轻量级的 ERNIE-4.5-0.3B 语言模型,在保持高准确率的同时大幅降低了计算成本和部署门槛。
2. 统一模型中的六大核心能力
PaddleOCR-VL-1.5 是真正的多任务模型,在单一架构中支持六大核心能力:
- OCR(文本识别):支持 100+ 种语言,新增对藏文和孟加拉文的支持,针对稀有字符、古文和文本装饰(下划线、强调标记)进行了优化
- 表格识别:支持复杂表格结构,包括自动跨页表格合并、多语言表格和无线表格
- 公式识别:支持 LaTeX 格式输出,特别针对扫描、变形和屏幕拍照等物理失真进行了优化
- 图表识别:理解并提取图表中的数据和趋势
- 印章识别(新增):识别官方印章和戳记,处理弯曲文字、模糊图像和背景干扰
- 文本定位(新增):支持精确的文本行定位和识别,使用 4 点四边形表示以适应旋转和倾斜布局
这种统一的多任务架构不仅简化了部署,更重要的是实现了不同任务间的知识共享和协同优化,使每项任务都能获得更好的性能。
3. 真实场景鲁棒性:Real5-OmniDocBench
为了评估模型在真实场景中的性能,PaddlePaddle 团队构建了 Real5-OmniDocBench 基准,覆盖五种常见的物理失真场景:
- 扫描:扫描仪产生的噪声和莫尔纹
- 倾斜:文档拍照时角度不正确
- 变形:纸张折叠和弯曲产生的非平面变形
- 屏幕拍照:捕获屏幕上显示的内容
- 光照:不均匀的光照和阴影
在这个更实用的测试集上,PaddleOCR-VL-1.5 取得 92.05% 的总体准确率,创造了新的 SOTA 记录。这意味着无论是处理用智能手机拍摄的合同照片还是扫描仪处理的历史文档,该模型都能保持稳定的高性能。
技术架构深度解析
PaddleOCR-VL-1.5 采用创新的两阶段架构设计,有机结合了布局分析和元素识别,实现了端到端的文档解析能力。
PP-DocLayoutV3:统一布局分析引擎
PP-DocLayoutV3 是 PaddleOCR-VL-1.5 的第一阶段,负责文档布局分析。与传统的矩形检测框不同,PP-DocLayoutV3 引入了实例分割技术来预测精确的像素级掩码,这对处理倾斜和变形的文档至关重要。
核心创新:
- 多点定位:支持四边形甚至多边形边界框预测,而非传统的两点矩形,能精确框定倾斜和旋转的文档元素
- 统一阅读顺序预测:通过全局指针机制直接在 Transformer 解码器中集成阅读顺序预测,计算元素间的优先级关系,消除传统方法中的级联错误
- 实例分割能力:基于 RT-DETR 目标检测器,PP-DocLayoutV3 使用基于掩码的检测头来预测精确的像素级掩码,在非理想场景中有效隔离文档组件
PaddleOCR-VL-1.5-0.9B:元素级识别模型
第二阶段 PaddleOCR-VL-1.5-0.9B 对从布局分析获得的元素进行细粒度识别。该模型继承了 PaddleOCR-VL-0.9B 的轻量级架构,但能力大幅扩展。
架构组件:
- 视觉编码器:采用 NaViT 风格的动态分辨率编码器,支持最大分辨率 1280×28×28(文档解析)和 2048×28×28(文本定位)
- 自适应 MLP 连接器:将视觉特征映射到语言模型的输入空间,实现有效的视觉语言对齐
- 语言模型:采用轻量级 ERNIE-4.5-0.3B 作为语言骨干,这是一个大规模预训练的中文语言模型,具有强大的语义理解能力
训练策略:采用三阶段渐进式训练范式 - 预训练(4600 万图文对)、后训练(560 万指令数据)和强化学习(GRPO 优化)。
性能评估与对比
OmniDocBench v1.5:全面领先
OmniDocBench v1.5 是最权威的文档解析基准之一,覆盖文本、表格、公式和图表等多种元素类型。PaddleOCR-VL-1.5 取得 94.5% 的总体准确率,在多项子任务上创造了新的 SOTA 记录:
- 总体准确率:94.5%(超越所有开源和闭源模型)
- 表格识别:显著提升,特别是在复杂和跨页表格上
- 公式识别:LaTeX 格式输出质量大幅改善
- 文本识别:在稀有字符、古文和文本装饰上表现优秀
- 阅读顺序:端到端预测准确率达到新高度
与竞争对手的对比
| 模型 | 参数量 | OmniDocBench v1.5 | 特性 |
|---|---|---|---|
| PaddleOCR-VL-1.5 | 0.9B | 94.5% | 轻量级、SOTA |
| Qwen3-VL-235B | 235B | 93.8% | 通用 LLM |
| Gemini-3 Pro | 未公开 | 92.1% | 闭源商业 |
| DeepSeek-OCR | 未公开 | 91.5% | 光学 2D 映射 |
硬件要求与部署
硬件要求
推荐配置:
- GPU:NVIDIA A100、AMD Instinct MI 系列
- 显存:8GB+(大批量推荐 16GB+)
- CPU:8+ 核心
- RAM:16GB+
最低配置:
- GPU:NVIDIA RTX 3060 或同等级别
- 显存:6GB+
- CPU:4+ 核心
- RAM:8GB+
支持平台:CUDA(NVIDIA GPU)、ROCm(AMD GPU,第一天支持)、CPU 推理
部署选项
1. Docker 部署(推荐)
使用 Docker 容器快速部署,无需配置复杂的依赖环境。
2. vLLM 加速部署
利用 vLLM 框架进行高性能推理加速,适合生产环境。
3. 原生 PaddlePaddle 部署
直接使用 PaddlePaddle 框架进行部署,灵活性最高。
使用场景与最佳实践
典型应用场景
- 文档数字化:将纸质文档和扫描件转换为可编辑的数字格式
- RAG 系统预处理:为 LLM 提供高质量的结构化文档数据
- 发票/合同识别:自动提取发票和合同中的关键信息
- 学术论文解析:提取论文中的文本、公式、表格和图表
- 多语言文档处理:支持 100+ 种语言
- 印章识别:识别官方文件上的印章
- 场景文本识别:识别广告牌、标志和海报中的文字
最佳实践建议
- 选择合适的部署方式:生产环境使用 vLLM,开发环境使用 Docker
- 优化输入分辨率:根据文档类型调整
- 批量处理:对大量文档使用批处理以提高吞吐量
- 结果后处理:利用结构化输出进行跨页表格合并
- 错误处理:对识别失败的情况调整预处理参数
总结
PaddleOCR-VL-1.5 代表了文档解析技术的重大突破。仅用 0.9B 参数就取得 94.5% 的 SOTA 准确率,并在真实场景鲁棒性测试中超越参数量大得多的通用模型。
核心优势:
- 参数效率:参数量少,部署成本低
- 多任务统一:六大核心能力集于一身
- 真实场景鲁棒:处理扫描、倾斜、变形等场景
- 完全开源:Apache 2.0 许可证,完全开源
无论是文档数字化、表单识别还是学术论文解析,PaddleOCR-VL-1.5 都能提供可靠的性能和灵活的部署选项。
相关链接
- 官方网站:https://www.paddleocr.com
- GitHub 仓库:https://github.com/PaddlePaddle/PaddleOCR
- HuggingFace 模型:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
- 技术论文:https://arxiv.org/abs/2601.21957