Possible Duplicate:
RegEx match open tags except XHTML self-contained tags
从标记中只提取文本的最佳正则表达式是什么?如果我有这样的html标记
<tr class="classo">
<td>text1</td>
<td class="dot">text2 </td>
<td>text3</td>
<td class="dot"> text4</td>
<td class="dot">text4</td>
</tr>
td标记的数量不是固定的,其中一些标记将具有class属性,但我只对从td标记内部获取文本感兴趣
正则表达式不是用来解析HTML的。HTML不是正则语言,不能用正则表达式很容易地进行解析。在
很多人喜欢},后者甚至可以根据需要使用
BeautifulSoup
,但是它很漂亮slow(another source),不如{BeautifulSoup
作为解析器。在下面是一个使用
lxml
的解决方案。在正则表达式
<td.*?>(.*?)<\/td>
就可以了。在但是我可以推荐您使用HTMLParser Module或{a2}
我花了点时间给您写了另一个使用HTMLParser的示例:
在行动中:
^{pr2}$与其花时间在正则表达式上,不如使用为任务设计的东西。我喜欢BeautifulSoup:
相关问题 更多 >
编程相关推荐