只是尝试使用Slate库和PyPDF2从Python中的PDF中提取文本。不幸的是,有些PDF输出时有多个单词合并/连接在一起。这似乎是断断续续发生的,例如,对于某些PDF单词,它们之间的空格是正确提取的,而其他则不是。在
其中一个例子是没有正确提取单词的PDF文件,可以下载(所以不允许我上传)here。的输出
slate.PDF(open(name, 'rb') ).text()
是(或至少一个段是):
,notonadhocprocedures,andcanbeusedwithdatacollectedatmul-tiplespatialresolutions(Kulldorff1999).Ifdataontheabundanceofataxonovertimeareavailable,thesedatacanbeincorporatedintoanSTPSanalysistoincreasethesensitivityandreliabilityofthemodeltodetectsightingclusters,
当然,第一个逗号分隔的标记应该是not on adhoc procedures
有没有人知道为什么会发生这种情况,或者有更好的想法来创建一个用于PDF文本提取的库?在
谢谢你的帮助!在
目前没有回答
相关问题 更多 >
编程相关推荐