用Python从PDF中提取标题的正则表达式

2024-09-27 17:54:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用textract阅读PDF。在PDF里面,有一些标题。例如:

  • 5\n\n不
  • 5.1\n\n A B
  • 5.1.1 \n \n A B
  • 5.1.1\n\n A/B()

一般情况下:

(numeric digit) then: (two times \n) then: (words containing alpha numeric digit in random number of times) and finally a line break

请注意,我在读取using之后,在得到输出时,我会准确地发布字符串另外,还有,因此这些都是标题,因此,在换行之后,段落开始。目前,我只想从PDF中提取标题。在

输入文本(例如目的:):

1人

人类是。。。。在

1.1来自亚洲/欧洲的人

。。。。。。。。。。。。在

1.1.1亚洲/欧洲男子

。。。。。。。。。在

输出:

1人

1.1来自亚洲/欧洲的人

1.1.1亚洲/欧洲男子

欢迎任何帮助/建议。如果对regex表达式给出一个解释,那将是非常可观的。在


Tags: inalpha标题pdf情况randomwordsdigit

热门问题