我正在用textract阅读PDF。在PDF里面,有一些标题。例如:
一般情况下:
(numeric digit) then: (two times \n) then: (words containing alpha numeric digit in random number of times) and finally a line break
请注意,我在读取using之后,在得到输出时,我会准确地发布字符串另外,还有,因此这些都是标题,因此,在换行之后,段落开始。目前,我只想从PDF中提取标题。在
输入文本(例如目的:):
1人
人类是。。。。在
1.1来自亚洲/欧洲的人
。。。。。。。。。。。。在
1.1.1亚洲/欧洲男子
。。。。。。。。。在
输出:
1人
1.1来自亚洲/欧洲的人
1.1.1亚洲/欧洲男子
欢迎任何帮助/建议。如果对regex表达式给出一个解释,那将是非常可观的。在
下面是一个有效的例子:
试试看here。在
python 3用法示例:
^{pr2}$相关问题 更多 >
编程相关推荐