我想把那些有生日的人从这里刮下来
以下是现有代码:
hdr = {'User-Agent': 'Mozilla/5.0'}
site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)
print soup
这一切都很好,我得到了整个HTML页面,但我想要特定的数据,我不知道如何访问美丽的汤没有id使用。<ul>
标记没有id,<li>
标记也没有id。另外,我不能要求每个标签,因为页面上还有其他列表。有没有一种特定的方法调用给定的列表?(我不能只对这一页使用修复程序,因为我计划遍历所有日期并获得每一页的生日,而且我不能保证每一页都与这一页完全相同的布局)。
找到出生部分:
然后找到下一个无序列表:
其思想是用
Births
id获取span
,找到父代的下一个兄弟(即ul
)并遍历它的li
元素。下面是一个使用requests
的完整示例(但与此无关):印刷品:
希望能有所帮助。
相关问题 更多 >
编程相关推荐