为什么pdftotext有时会将单词挤在一起?

2024-09-29 02:27:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用pdftotext将一些PDF转换为文本,转换正在进行,但一些单词正在被挤压在一起。例如,the 2nd day变成the2nd daybefore me变成beforeme等等。为什么会发生这种情况?我应该如何消除这些差异

我曾尝试使用Okula(因为我使用linux)将pdf转换为文本,但这也给了我同样的输出。这很麻烦,因为它在很大程度上阻碍了文本提取


Tags: the文本pdflinux情况差异单词me