如何抓取不是直接用HTML编写，而是用JavaScript自动生成的网页？

from selenium import webdriver import time driver = webdriver.Chrome(executable_path="C:\\chrme\\chromedriver") driver.get('http://washingtonmonthly.com/college_guide?ranking=best-colleges-for-adult-learners-4-year-colleges') time.sleep(5) test = driver.execute_script("return document.getElementsByClassName('tablesaw tablesaw-swipe')") print(test)

2条回答

网友

1楼 · 编辑于 2024-10-02 22:26:32

运行这个脚本，我想它将为您提供表中包含的所有内容，包括csv输出。你知道吗

import csv
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
wait = WebDriverWait(driver, 10)
outfile = open('table_data.csv','w',newline='')
writer = csv.writer(outfile)
driver.get("http://washingtonmonthly.com/college_guide?ranking=2016-rankings-national-universities")

wait.until(EC.frame_to_be_available_and_switch_to_it("iFrameResizer0"))
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, 'table.tablesaw')))

tab_data = driver.find_element_by_css_selector('table.tablesaw')
list_rows = [[cell.text for cell in row.find_elements_by_css_selector('td')]
             for row in tab_data.find_elements_by_css_selector('tr')]
for data in list_rows:
    writer.writerow(data)
    print(data)

driver.quit()

顺便说一句，我假设您已经安装了lxml库。你知道吗

网友

2楼 · 编辑于 2024-10-02 22:26:32

首先，当我输入链接时，它说页面不存在。你知道吗

如果你想得到一个自动生成的页面，你必须使用chromedev工具，看看哪个请求正在执行代码。你知道吗

因此，如果您看到一个GET请求返回生成的html，您必须接受该请求并在代码中使用它。你知道吗

如果对你有帮助就告诉我。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章