我写了一个pdf到Excel的转换器。 转换是通过linux命令pdftohtml完成的,但有时它看起来很奇怪,如下所示:
<b>1 </b><br>
In<br>
I t<br>
n r<br>
t o<br>
r d<br>
o u<br>
d c<br>
u t<br>
c i<br>
t o<br>
i n<br>
o <br>
<i>Headline1: </i>Text1 <br>
text<br>
<b>1.1 </b><br>
Pu<br>
P r<br>
u p<br>
r o<br>
p s<br>
o e<br>
s <br>
<i>Headline2: </i>Text2 <br>
text<br>
显然应该是这样的:
^{pr2}$我使用了多种方法,例如,通过
<b>((?:[\d]+)(?:[.][\d]+)*)\s*</b><br>\s(\w{2})<br>\s(\w\s(\w)+<br>\s)*(\w)\s\s<br>\s<i>
但这并不是每封信都会返回。怎么了,为什么不返回这个不全是匹配的?
此外,我尝试替换</b>
和<i>
之间的每个<br>
-标记
(?=</b>.*)(<br>)(?=.*<i>)
但它也不起作用。在
这些方法是正确的还是有更好的方法?在
目前没有回答
相关问题 更多 >
编程相关推荐