Python中PDF到HTML的转换/Regex替换和concat匹配

2024-09-27 19:29:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我写了一个pdf到Excel的转换器。 转换是通过linux命令pdftohtml完成的,但有时它看起来很奇怪,如下所示:

<b>1 </b><br>
In<br>
I t<br>
n r<br>
t o<br>
r d<br>
o u<br>
d c<br>
u t<br>
c i<br>
t o<br>
i n<br>
o  <br>
<i>Headline1: </i>Text1 <br>
text<br>
<b>1.1 </b><br>
Pu<br>
P r<br>
u p<br>
r o<br>
p s<br>
o e<br>
s  <br>
<i>Headline2: </i>Text2 <br>
text<br>

显然应该是这样的:

^{pr2}$

我使用了多种方法,例如,通过

<b>((?:[\d]+)(?:[.][\d]+)*)\s*</b><br>\s(\w{2})<br>\s(\w\s(\w)+<br>\s)*(\w)\s\s<br>\s<i>

但这并不是每封信都会返回。怎么了,为什么不返回这个不全是匹配的? 此外,我尝试替换</b><i>之间的每个<br>-标记

(?=</b>.*)(<br>)(?=.*<i>)

但它也不起作用。在

这些方法是正确的还是有更好的方法?在


Tags: 方法textinbr命令pdflinuxexcel

热门问题