Python将一本PDF格式的书分成与页码相对应的单独文本文件

2024-10-08 18:21:58 发布

男 | 程序猿一只，喜欢编程写python代码。

我已经用PDFminer把我的PDF文件转换成一个长字符串。你知道吗

我想知道我应该如何将这个字符串划分成更小的、单独的字符串/页。每一页都被一系列字符（CRLF、FF、页码等）分割，字符串应该根据这些字符被分割并附加到一个新的文本文件中。你知道吗

我没有使用regex的经验，但是使用re模块是最好的方法吗？你知道吗

我对实现的模糊想法是，我必须使用检索函数，使用找到的每个新表单提要创建文本文件。我仅有的代码是PDF>；文本转换。有人能给我指出正确的方向吗？你知道吗

编辑：我认为我应该使用的表达方式是^.*(?=(\d\n\n\d\n\n\f\bFavela\b))（捕获2位数字之前的所有内容、换行符和出现在每页顶部的书名“Favela”）。你知道吗

我可以将这些\d数字保存为变量吗？我想用它们作为文件名，因为我反复阅读这本书，并收集文本部分除以\f\Favela的每个外观。你知道吗

我在想re.sub方法可以做到这一点，循环通过并替换为一个空字符串。你知道吗

Tags：文件方法字符串文本 re pdf 数字字符

0条回答

目前没有回答