Python和BS4在一定时间后停止读取

from bs4 import BeautifulSoup from urllib.request import Request, urlopen url = "http://rateyourmusic.com/customchart" req = Request(url, headers={'User-Agent': 'Mozilla/5.0'}) soup = BeautifulSoup(urlopen(req)) table = soup.find("table", {"class" : "mbgen"}) totalList = [] for row in table.findAll("tr"): cells = row.findAll("td") rank = int(cells[0].find(class_="ooookiig").text) artist = cells[2].find(class_="artist").text album = cells[2].find(class_="album").text year = cells[2].find(class_="mediumg").text year = int(year[1:5]) chartData = {"Rank":rank, "Artist":artist, "Album":album, "Year":year} totalList.append(chartData) print(chartData)

2条回答

网友

1楼 · 编辑于 2024-09-28 01:33:22

你可以用一个计数器迭代，当计数器达到100时就停止，但是我不太喜欢这样，代码不再有用了，比如他们决定把元素的数量增加到200。我将使用一个简单的try块，如下所示：

for row in table.findAll("tr"):
    try:
        cells = row.findAll("td")
        rank = int(cells[0].find(class_="ooookiig").text)
        artist = cells[2].find(class_="artist").text
        album = cells[2].find(class_="album").text
        year = cells[2].find(class_="mediumg").text
        year = int(year[1:5])

        chartData = {"Rank":rank, "Artist":artist, "Album":album, "Year":year}
        totalList.append(chartData)
        print(chartData)
    except AttributeError:
        pass

网友

2楼 · 编辑于 2024-09-28 01:33:22

这是因为解析器找不到该项。在

来自BS4documentation：

If find_all() can’t find anything, it returns an empty list. If find() can’t find anything, it returns None

您可以使用try块，但就个人而言，我更喜欢手动检查它：

for rownumber, row in enumerate(table.findAll('tr')):
    if rownumber < 100:
        #do something

相关问题更多 >

编程相关推荐

热门问题

热门文章