我对python、数据刮取和自动化还不熟悉。我正在努力把URL
中给出的网站刮下来。当我在浏览器中打开URL
链接时,所有数据都会显示出来,但是requests.get()
方法的响应不会给出这些数据。你知道吗
如果有人能告诉我出了什么问题,那真的很有帮助。你知道吗
import requests
import time
from bs4 import BeautifulSoup
URL = "https://fees.uspto.gov/MaintenanceFees/fees/details?applicationNumber=12814074&patentNumber=7871455"
html = requests.get(URL)
time.sleep(4)
pno = response.findAll('div',{"class":"left maintenanceFeeDetails"})
print(pno)
我要抓取的数据处于付款窗口状态(只需在浏览器中粘贴URL
的url即可)
我用User Agent尝试了
allow_redirects=True
和headers
param,但仍然注意到:它遵循重定向,但我什么也得不到
数据似乎是动态加载的,所以我使用了Selenium
用硒我得到了结果
结果(可从中提取数据的表的标题)
根据我的评论,您需要的数据是动态生成的,因此它不在您返回的源中,请求会自动为您处理get请求的重定向,因此也永远不会成为问题:
您可以通过使用相同参数对
https://fees.uspto.gov/mntfee-services/v1/maintenancefee/details
的简单get请求来模拟ajax请求,从而获得所需的信息:它以json格式提供所有信息。你知道吗
你可以从模型里提取任何你想要的信息。你知道吗
相关问题 更多 >
编程相关推荐