我试图用python编写一个pdf布局分析器。我已经能够用熊猫来做这项工作,得到了一些相当不错的结果。然而,到目前为止,我一直在使用JPedal生成的数据,但是生成的坐标似乎包含了一些相当大的误差,这影响了最终的结果。目前,我正在处理熊猫数据框中显示的数据,如下所示:
font page style words x1 x2 y1 y2
0 Times-Roman 1 font-size:22pt K 206 214 120 144
1 Times-Roman 1 font-size:22pt O 226 234 120 144
2 Times-Roman 1 font-size:22pt H 245 253 120 144
现在我考虑使用pdfminer生成包含相同基本属性的数据。据我所知,我应该使用pdfminer布局对象来获取这些数据。不幸的是,文件有点模糊。如能提供解决方案,我们将不胜感激。在
我一直在一个项目中使用PDFMiner,只需使用它的命令行工具来生成XML,并使用其中的坐标。在
这会得到单个字符的坐标-我正在从那里进行我自己的布局分析,因为我没有发现内置的分析在我的文档中工作得很好。在
相关问题 更多 >
编程相关推荐