你好,我正在使用python和beauthoulsoup。我有一个html页面,如下所示:
<i>Hello<\i>
<a href="www.google.com"> Google <\a>
<i>Bye<\i>
<a href="www.google.com"> Google2 <\a>
<i>Hello<\i>
<a href="www.google.com"> Google3 <\a>
<i>Bye<\i>
我想得到所有的“a”标签文本(我知道如何做,我只是不知道如何得到他们)之间的Hello和Bye标签,但不是之间的拜拜和Hello标签。有没有可能配上漂亮的汤和Python?谢谢!在
你可以使用beauthoulsoup和regex的组合。这里regex用于获取limit标记之间的所有内容,然后使用BeautifulSoup提取锚定标记。在
输出:
^{pr2}$我稍微修改了一下你的HTML。(请注意,反斜杠应该是斜杠。)
为此,首先找到“Hello”字符串。在for循环中调用这些字符串之一
s
。那么你想要的是s.findParent().findNextSibling()
。在我显示}来展示我如何从这些字符串中构造出您需要的东西。在
s
、s.findParent()
和{也许您可以使用
re
模块。参考参见Regular Expression Howto for py2输出
注意这个方法很大程度上取决于html的外观。 有关以上代码的说明,请参阅第一个链接。在
相关问题 更多 >
编程相关推荐