Python Slate库：PDF文本提取连接单词

2024-10-02 00:19:45 发布

您现在位置：Python中文网/ 问答频道 /正文

8240

网友

男 | 程序猿一只，喜欢编程写python代码。

只是尝试使用Slate库和PyPDF2从Python中的PDF中提取文本。不幸的是，有些PDF输出时有多个单词合并/连接在一起。这似乎是断断续续发生的，例如，对于某些PDF单词，它们之间的空格是正确提取的，而其他则不是。在

其中一个例子是没有正确提取单词的PDF文件，可以下载（所以不允许我上传）here。的输出

slate.PDF(open(name, 'rb') ).text()

是（或至少一个段是）：

,notonadhocprocedures,andcanbeusedwithdatacollectedatmul-tiplespatialresolutions(Kulldorff1999).Ifdataontheabundanceofataxonovertimeareavailable,thesedatacanbeincorporatedintoanSTPSanalysistoincreasethesensitivityandreliabilityofthemodeltodetectsightingclusters,

当然，第一个逗号分隔的标记应该是not on adhoc procedures

有没有人知道为什么会发生这种情况，或者有更好的想法来创建一个用于PDF文本提取的库？在

谢谢你的帮助！在

Tags：文件 text name 文本 here pdf open 单词

0条回答

目前没有回答

Python Slate库：PDF文本提取连接单词

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python Slate库：PDF文本提取连接单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >