用pdfminer pdf2处理多列布局文本.pymodu装置

2024-09-30 04:28:11 发布

男 | 程序猿一只，喜欢编程写python代码。

到目前为止，我成功地使用了pdfminer pdf2txt.py模块。在

但是在两列格式的pdf文件中出现了一个问题。该模块将文本检索到一个列中，这将在行的末尾生成多个拆分的单词。示例：

and functional properties of cellu-
lar components negatively, both physically and chemically.

*请注意，单词之间用“-”字符隔开。在

我想要的是定制命令，以使行末的单词显示为一个整体，因此不会丢失信息。可能是通过添加一个行参数或一个字符边距，特别是将'-'字符替换为反斜杠？在

我还想知道是否有办法循环命令，使其解析一个目录中的pdf文件，每次都生成一个不同的输出文本文件，以原来的命名？在

但我不知道怎么做。在

Tags：模块 and 文件 py 命令示例 pdf 格式

0条回答

目前没有回答