阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

阿里开源PDF文档解析模型效果

今天来分享下阿里最近开源的一个强劲的文档解析模型,我们之前聊过各种集成式或者端到端的 PDF 文档解析工具。

像 MonkeyOCR、Tesseract 这类集成式的模型,一般采用基于流水线的架构,依次部署专家模型来处理元素检测、区域裁剪、元素识别等任务。

与传统的基于流水线的方法相比,端到端范式通过集成OCR、表格识别、数学公式识别等技术,在将PDF图像转换为结构化输出方面展现出了卓越的性能。

像 GPT-4o、Qwen2.5-VL、SEED1.5-VL 这类端到端模型,在处理 PDF 扫描件时表现亮眼,不仅能提取文字,还能做表格分析、图表解读,甚至回答复杂问题。

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

不同模型在文档阅读顺序上的对比

不过,由于缺乏对文档布局和阅读顺序的显式分析阶段,限制了LVLM处理复杂文档类型(如多栏报纸或海报)的能力。

一、复杂文档布局的解析方式有几种?

当前LVLM广泛采用的下一个Token预测目标优化了输入文本图像和输出文本之间的令牌级对齐,而忽略了复杂布局对阅读顺序推理的破坏性影响。

强化学习如何用?Infinity-Parser 第一将其引入文档解析任务,提出了三种布局感知奖励,但段落计数目标仅通过计算段落数量,并未思考相应元素块的具体位置和分隔。

大模型后训练如何用?后训练的一个关键原则:SFT记忆,RL泛化。这强调了在RL泛化之前,通过SFT稳定模型输出格式的重大性。

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

两者结合如何做?阿里最近开源了Logics-Parsing,这是一个基于LVLM的端到端框架,并通过强化学习增强,以建立一个鲁棒且具有布局感知能力的文档解析模型。源码论文及在线体验链接如下:

# 论文
https://arxiv.org/pdf/2509.19760
# 代码
https://github.com/alibaba/Logics-Parsing
# 项目
https://logics.alibaba-inc.com/parsing/
# 演示
https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

二、基于多模态大模型的PDF解析专家

阿里团队采用了两阶段先SFT后RL的训练策略以确保模型的有效性。

第一,通过将普通文本、数学公式、表格、化学公式和手写汉字等多种数据类型纳入训练,使用超过30万张高质量的页面级文档图像对Qwen2.5-VL-7B 进行微调。

其次,通过布局感知的多组件奖励机制,强制模型在识别出的布局下遵循自然的阅读顺序,显著提升了模型在多栏报纸和海报等复杂布局上的性能。

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

此外,构建了一个全面的基准测试集,包含1078个页面级PDF图像,涵盖九个主要类别(例如学术论文、技术报告)和超过二十个子类别,称为LogicsParsingBench。

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

三、Logics-Parsing的主要特点及基准性能

单模型架构无需复杂的多阶段流程,部署和推理过程超级简单,直接从文档图像到结构化输出。它可以准确识别和构建困难的内容,包括复杂的科学公式、化学结构等。

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

模型生成文档的干净 HTML 表明,并保留其逻辑结构。每个内容块(段落、表格、图形、公式)都标有其类别、边界框坐标和OCR 文本。它会自动识别并过滤掉页眉和页脚等不相关的元素,只关注核心内容。

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!

最后,关注视觉大模型与多模态大模型的小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!

© 版权声明

相关文章

2 条评论

  • 领导我是小明
    领导我是小明 投稿者

    大家可加入群,讨论呀

    回复
  • 锐
    投稿者

    收藏了,感谢分享

    回复