用Python从PDF中提取标题的正则表达式

2024-09-27 17:54:53 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在用textract阅读PDF。在PDF里面，有一些标题。例如：

一般情况下：

(numeric digit) then: (two times \n) then: (words containing alpha numeric digit in random number of times) and finally a line break

请注意，我在读取using之后，在得到输出时，我会准确地发布字符串另外，还有，因此这些都是标题，因此，在换行之后，段落开始。目前，我只想从PDF中提取标题。在

输入文本（例如目的：）：

1人

人类是。。。。在

1.1来自亚洲/欧洲的人

。。。。。。。。。。。。在

1.1.1亚洲/欧洲男子

。。。。。。。。。在

输出：

1人

1.1来自亚洲/欧洲的人

1.1.1亚洲/欧洲男子

欢迎任何帮助/建议。如果对regex表达式给出一个解释，那将是非常可观的。在

Tags： in alpha 标题 pdf 情况 random words digit

1条回答

网友

1楼 · 发布于 2024-09-27 17:54:53

下面是一个有效的例子：

(\d.?\ ?)*\n\n[A-Za-z0-9 \/]+\n

试试看here。在

python 3用法示例：

^{pr2}$