如何修复BeautifulSoup/selenium在同一网站上工作的某些页面，但不是所有页面？

Traceback (most recent call last): File "scrape.py", line 89, in <module> i, i + 5000) File "scrape.py", line 37, in scrapeWebsite extractedInfo = info.findAll("td") AttributeError: 'NoneType' object has no attribute 'findAll'

driver = webdriver.Chrome(executable_path='/Users/Downloads/chromedriver') print(start, stop) madeDict = {"Date": [], "Team": [], "Name": [], "Relinquished": [], "Notes": []} #for i in range(0, 214025, 25): for i in range(start, stop, 25): print("Current Page: " + str(i)) currUrl = url + str(i) driver.get(currUrl) driver.implicitly_wait(100 soupPage = BeautifulSoup(driver.page_source, 'html.parser') #page = urllib2.urlopen(currUrl) #soupPage = BeautifulSoup(page, 'html.parser') # #Sleep the program to ensure page is fully loaded # time.sleep(1) info = soupPage.find("table", attrs={'class': 'datatable center'}) extractedInfo = info.findAll("td")

1条回答

网友

1楼 · 发布于 2024-09-27 20:16:49

不使用selenium执行，而是使用请求。你知道吗

import requests
from bs4 import BeautifulSoup

url='https://www.prosportstransactions.com/football/Search/SearchResults.php?Player=&Team=&BeginDate=&EndDate=&PlayerMovementChkBx=yes&submit=Search&start='

for i in range(0, 214025, 25):
    print("Current Page: " + str(i))
    r=requests.get(url + str(i))
    soup = BeautifulSoup(r.content)
    info = soup.find("table", attrs={'class': 'datatable center'})
    extractedInfo = info.findAll("td")
    print(extractedInfo)

相关问题更多 >

编程相关推荐

热门问题

热门文章