首页 手机网
入驻财经号 登录 客服 |
首页> 行业> 正文

PaddleOCR新模型OCR综合性能全球第一

财经号APP
观潮商业观潮商业 2026-06-02 12:22:00 173
分享到:

  近日,百度正式发布 PaddleOCR-VL-1.6。作为文心衍生模型,PaddleOCR-VL-1.6 在 OmniDocBench v1.6 权威评测中准确率突破 96.3%,在 Real5-OmniDocBench、OmniDocBench v1.5上也取得了最领先的分数,综合性能全球第一,刷新业界SOTA,在复杂文档理解和真实场景解析能力方面进一步突破。

  

  在权威评测集 OmniDocBench v1.6 上,PaddleOCR-VL-1.6 总指标达到 96.33%,超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等,综合性能全球第一,领跑全球通用大模型和专用OCR模型;在面向真实复杂场景构建的 Real5-OmniDocBench 评测中,PaddleOCR-VL-1.6 总指标达到 93.19%,较 Gemini-3-Pro 提升近4个百分点,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等五大真实场景下均保持领先表现。

  

  据了解,PaddleOCR基于文心大模型训练而来,是文心大模型多模态能力的重要部分,支持超100种语言识别,用户覆盖170多个国家和地区。此次发布的 PaddleOCR-VL-1.6 在 PaddleOCR-VL-1.5 基础上进一步升级,通过模型驱动的数据构建机制和渐进式训练优化,在保持0.9B轻量化架构的情况下,模型准确率和复杂场景适应能力进一步提升。

  近年来,PaddleOCR 持续推进文档理解能力升级,先后推出 PaddleOCR-VL、PaddleOCR-VL-1.5 等多款模型。其中,PaddleOCR-VL-1.5 创新支持异形框定位,在真实文档场景中展现出较强解析能力。此前,PaddleOCR GitHub Star 数已突破79.2K,超过谷歌开源OCR项目 Tesseract OCR,成为全球最受开发者欢迎的开源OCR项目之一。

  目前,PaddleOCR-VL-1.6 已上线 PaddleOCR 官网,支持网页端和API调用。同时,模型代码及权重已同步开源至 GitHub 和 Hugging Face,面向全球开发者开放使用。

  

财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。

0条评论 网友评论文明上网,理性发言

中金登录 微博登录 QQ登录

    查看更多评论

    举报此人

    X
    确认
    取消

    热门视频换一批

    温馨提示

    由于您的浏览器非微信客户端浏览器,无法继续支付,如需支付,请于微信中打开链接付款。(点击复制--打开微信--选择”自己“或”文件传输助手“--粘贴链接--打开后付款)

    或关注微信公众号<中金在线>底部菜单”名博看市“,搜索您要的作者名称或文章名称。给您带来的不便尽请谅解!感谢您的支持!

    复制链接

    鲜花打赏 X

    可用金币:0

    总支付金额:0

    您还需要支付0
    我已阅读《增值服务协议》
    确认打赏

    1鲜花=0.1元人民币=1金币    打赏无悔,概不退款

    举报文章问题 X
    参考地址

    其他问题,我要吐槽

    确定

    温馨提示

    前往财经号APP听深入解析

    取消 确认