Python将一本PDF格式的书分成与页码相对应的单独文本文件

2024-10-08 18:21:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经用PDFminer把我的PDF文件转换成一个长字符串。你知道吗

我想知道我应该如何将这个字符串划分成更小的、单独的字符串/页。每一页都被一系列字符(CRLF、FF、页码等)分割,字符串应该根据这些字符被分割并附加到一个新的文本文件中。你知道吗

我没有使用regex的经验,但是使用re模块是最好的方法吗?你知道吗

我对实现的模糊想法是,我必须使用检索函数,使用找到的每个新表单提要创建文本文件。我仅有的代码是PDF>;文本转换。有人能给我指出正确的方向吗?你知道吗

编辑:我认为我应该使用的表达方式是^.*(?=(\d\n\n\d\n\n\f\bFavela\b))(捕获2位数字之前的所有内容、换行符和出现在每页顶部的书名“Favela”)。你知道吗

我可以将这些\d数字保存为变量吗?我想用它们作为文件名,因为我反复阅读这本书,并收集文本部分除以\f\Favela的每个外观。你知道吗

我在想re.sub方法可以做到这一点,循环通过并替换为一个空字符串。你知道吗


Tags: 文件方法字符串文本repdf数字字符

热门问题