Python中PDF到HTML的转换/Regex替换和concat匹配

2024-09-27 19:29:25 发布

男 | 程序猿一只，喜欢编程写python代码。

我写了一个pdf到Excel的转换器。转换是通过linux命令pdftohtml完成的，但有时它看起来很奇怪，如下所示：

<b>1 </b><br>
In<br>
I t<br>
n r<br>
t o<br>
r d<br>
o u<br>
d c<br>
u t<br>
c i<br>
t o<br>
i n<br>
o  <br>
<i>Headline1: </i>Text1 <br>
text<br>
<b>1.1 </b><br>
Pu<br>
P r<br>
u p<br>
r o<br>
p s<br>
o e<br>
s  <br>
<i>Headline2: </i>Text2 <br>
text<br>

显然应该是这样的：

^{pr2}$

我使用了多种方法，例如，通过

<b>((?:[\d]+)(?:[.][\d]+)*)\s*</b><br>\s(\w{2})<br>\s(\w\s(\w)+<br>\s)*(\w)\s\s<br>\s<i>

但这并不是每封信都会返回。怎么了，为什么不返回这个不全是匹配的？此外，我尝试替换</b>和<i>之间的每个<br>-标记

(?=</b>.*)(<br>)(?=.*<i>)

但它也不起作用。在

这些方法是正确的还是有更好的方法？在

Tags：方法 text in br 命令 pdf linux excel

0条回答

目前没有回答

Python中PDF到HTML的转换/Regex替换和concat匹配

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中PDF到HTML的转换/Regex替换和concat匹配

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >