Python Slate库:PDF文本提取连接单词

2024-10-02 00:19:45 发布

您现在位置:Python中文网/ 问答频道 /正文

只是尝试使用Slate库和PyPDF2从Python中的PDF中提取文本。不幸的是,有些PDF输出时有多个单词合并/连接在一起。这似乎是断断续续发生的,例如,对于某些PDF单词,它们之间的空格是正确提取的,而其他则不是。在

其中一个例子是没有正确提取单词的PDF文件,可以下载(所以不允许我上传)here。的输出

slate.PDF(open(name, 'rb') ).text()

是(或至少一个段是):

,notonadhocprocedures,andcanbeusedwithdatacollectedatmul-tiplespatialresolutions(Kulldorff1999).Ifdataontheabundanceofataxonovertimeareavailable,thesedatacanbeincorporatedintoanSTPSanalysistoincreasethesensitivityandreliabilityofthemodeltodetectsightingclusters,

当然,第一个逗号分隔的标记应该是not on adhoc procedures

有没有人知道为什么会发生这种情况,或者有更好的想法来创建一个用于PDF文本提取的库?在

谢谢你的帮助!在


Tags: 文件textname文本herepdfopen单词

热门问题