我正试图在http://tickertrak.com/上浏览表格,但我做不到。代码在table标记之后没有读取任何内容,我甚至看不到它,所以我非常困惑。我是网络垃圾新手,到目前为止只会做维基百科表格
import time
!pip install selenium
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
import sys
sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver')
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
options = Options()
options.headless = True
driver = webdriver.Chrome(options=options)
driver.get("http://tickertrak.com/")
time.sleep(2)
df = pd.read_html(driver.page_source, flavor="bs4")
df = pd.concat(df)
df.drop(index=0, axis=0, inplace=True)
df.to_csv("your_table.csv", index=False)`
我的线路出现错误:
driver = webdriver.Chrome(options=options)
用于webdriverexception。我忘了什么地方的路了吗
该表是由
JS
(JavaScript
)动态生成的,因此您不会使用纯requests
和bs4
获取数据但是,您可以给
selenium
一个快照并将其与panadas
组合以下是方法:
这将生成一个
.csv
文件,如下所示:这是使用请求模块从该网页获取数据的更快方法之一,因为数据已经在脚本标记内的页面源中。您现在要做的就是在将数据存储到dataframe之前清理数据
输出如下:
相关问题 更多 >
编程相关推荐