如何使用python BeautifulSoup在<a href标记中绘制数据

2024-05-17 03:43:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我遇到了Python2.7.12的一个问题,使用BeautifulGroup来获取一些网页数据,我真的不知道如何在一个<a href link </a>内刮取一个特定的'title='标记

到目前为止,我得到的输出代码是:

    import urllib2
    from bs4 import BeautifulSoup

    hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"}
    url = 'REMOVED'

    req=urllib2.Request(url,headers=hdr)
    urllib2.urlopen(url).read()
    html = urllib2.urlopen(req).read()
    soup=BeautifulSoup(html,"html5lib")

    players = soup.find_all("td", {"data-title": "Navn"})

    player_data = ""
    saveFile = open('player_data.txt','w')

for item in players:

    player_data = item.contents[0].encode("utf-8")
    print player_data
    saveFile.write (player_data)

saveFile.close()    

我得到以下格式的数据行:

^{pr2}$

有人能帮我从“title=”中找到具体的名字吗?我只是觉得它不起作用。。。在

提前感谢:)


Tags: 数据importurlreaddatahdrtitlehtml