用pdfminer pdf2处理多列布局文本.pymodu装置

2024-09-30 04:28:11 发布

您现在位置:Python中文网/ 问答频道 /正文

到目前为止,我成功地使用了pdfminer pdf2txt.py模块。在

但是在两列格式的pdf文件中出现了一个问题。该模块将文本检索到一个列中,这将在行的末尾生成多个拆分的单词。示例:

and functional properties of cellu-
lar components negatively, both physically and chemically.

*请注意,单词之间用“-”字符隔开。在

我想要的是定制命令,以使行末的单词显示为一个整体,因此不会丢失信息。 可能是通过添加一个行参数或一个字符边距,特别是将'-'字符替换为反斜杠?在

我还想知道是否有办法循环命令,使其解析一个目录中的pdf文件,每次都生成一个不同的输出文本文件,以原来的命名?在

但我不知道怎么做。在


Tags: 模块and文件py命令示例pdf格式

热门问题