有没有一种方法可以根据Python中包含的单词从HTML页面中提取特定的<li>
?你知道吗
例如: 让我们看这一页:https://en.wikipedia.org/wiki/1916
我在Python中得到这个页面的HTML如下:
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
infile = opener.open('https://en.wikipedia.org/wiki/1916')
我想得到的是每个<li>
包含一个给定的单词。如果我搜索“凡尔登”,我希望所有的<li>
和他们的内容,有这个词像
<li><a href="/wiki/February_21" title="February 21">February 21</a> – WWI: The <a href="/wiki/Battle_of_Verdun" title="Battle of Verdun">Battle of Verdun</a> begins in <a href="/wiki/French_Third_Republic" title="French Third Republic">France</a>.</li>
你可以这样做
BeautifulSoup允许您通过部分文本进行搜索。只需执行以下操作:
相关问题 更多 >
编程相关推荐