PaddleOCR新模型OCR综合性能全球第一

财经号APP

观潮商业 2026-06-02 12:22:00

173

分享到：

近日，百度正式发布 PaddleOCR-VL-1.6。作为文心衍生模型，PaddleOCR-VL-1.6 在 OmniDocBench v1.6 权威评测中准确率突破 96.3%，在 Real5-OmniDocBench、OmniDocBench v1.5上也取得了最领先的分数，综合性能全球第一，刷新业界SOTA，在复杂文档理解和真实场景解析能力方面进一步突破。

在权威评测集 OmniDocBench v1.6 上，PaddleOCR-VL-1.6 总指标达到 96.33%，超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等，综合性能全球第一，领跑全球通用大模型和专用OCR模型；在面向真实复杂场景构建的 Real5-OmniDocBench 评测中，PaddleOCR-VL-1.6 总指标达到 93.19%，较 Gemini-3-Pro 提升近4个百分点，在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等五大真实场景下均保持领先表现。

据了解，PaddleOCR基于文心大模型训练而来，是文心大模型多模态能力的重要部分，支持超100种语言识别，用户覆盖170多个国家和地区。此次发布的 PaddleOCR-VL-1.6 在 PaddleOCR-VL-1.5 基础上进一步升级，通过模型驱动的数据构建机制和渐进式训练优化，在保持0.9B轻量化架构的情况下，模型准确率和复杂场景适应能力进一步提升。

近年来，PaddleOCR 持续推进文档理解能力升级，先后推出 PaddleOCR-VL、PaddleOCR-VL-1.5 等多款模型。其中，PaddleOCR-VL-1.5 创新支持异形框定位，在真实文档场景中展现出较强解析能力。此前，PaddleOCR GitHub Star 数已突破79.2K，超过谷歌开源OCR项目 Tesseract OCR，成为全球最受开发者欢迎的开源OCR项目之一。

目前，PaddleOCR-VL-1.6 已上线 PaddleOCR 官网，支持网页端和API调用。同时，模型代码及权重已同步开源至 GitHub 和 Hugging Face，面向全球开发者开放使用。

分享收藏举报

标签2：综合性场景指标模型能力

财经号声明：本文由入驻中金在线财经号平台的作者撰写，观点仅代表作者本人，不代表中金在线立场。仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。同时提醒网友提高风险意识，请勿私下汇款给自媒体作者，避免造成金钱损失，风险自负。如有文章和图片作品版权及其他问题，请联系本站。

0条评论网友评论文明上网，理性发言

查看更多评论

PaddleOCR新模型OCR综合性能全球第一

0条评论网友评论文明上网，理性发言

举报此人

观潮商业

推荐财经号换一批

热门视频换一批

友情链接

温馨提示

鲜花打赏 X

温馨提示

PaddleOCR新模型OCR综合性能全球第一

0条评论 网友评论文明上网，理性发言

举报此人

观潮商业

推荐财经号 换一批

热门视频换一批

友情链接

温馨提示

鲜花打赏 X

温馨提示

0条评论网友评论文明上网，理性发言

推荐财经号换一批