Word和pdfmin的坐标

2024-10-04 05:30:24 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图用python编写一个pdf布局分析器。我已经能够用熊猫来做这项工作，得到了一些相当不错的结果。然而，到目前为止，我一直在使用JPedal生成的数据，但是生成的坐标似乎包含了一些相当大的误差，这影响了最终的结果。目前，我正在处理熊猫数据框中显示的数据，如下所示：

          font  page           style words   x1   x2   y1   y2
0  Times-Roman     1  font-size:22pt     K  206  214  120  144
1  Times-Roman     1  font-size:22pt     O  226  234  120  144
2  Times-Roman     1  font-size:22pt     H  245  253  120  144

现在我考虑使用pdfminer生成包含相同基本属性的数据。据我所知，我应该使用pdfminer布局对象来获取这些数据。不幸的是，文件有点模糊。如能提供解决方案，我们将不胜感激。在

Tags：数据分析器 size pdf style page 布局 pdfminer

1条回答

网友

1楼 · 发布于 2024-10-04 05:30:24

我一直在一个项目中使用PDFMiner，只需使用它的命令行工具来生成XML，并使用其中的坐标。在

这会得到单个字符的坐标-我正在从那里进行我自己的布局分析，因为我没有发现内置的分析在我的文档中工作得很好。在

Word和pdfmin的坐标

相关问题更多 >

编程相关推荐

热门问题

热门文章

Word和pdfmin的坐标

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >