我需要从这个网站上抓取唯一的表:https://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu
我用了漂亮的汤和请求,但没有成功。你们能告诉我哪里出了问题吗?你知道吗
mandal_url = "https://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu"
r = requests.get(mandal_url, verify=False).content
soup = bs4.BeautifulSoup(r, 'lxml')
df = pd.read_html(str(soup.find('table',{"id":"gvAgricultureVillage"})))
我正在数据框中查找“找不到页”。我不知道我哪里出错了!你知道吗
尝试单击要从无效链接中删除的链接。当我单击您提供的链接或存储在
mandal_url
中的链接时,两者都返回一个“未找到页面”页面。因此,您正在以正确的方式进行刮取,但是您提供给刮取器的url无效/不再向上。你知道吗该页面可能需要某种登录。我自己点击链接查看,得到。你知道吗
您需要将cookies/一些其他头添加到请求中以显示“已登录”。你知道吗
我无法访问该网站。但您可以通过以下方式直接阅读网页上的表格:
如果url需要身份验证,则可以通过以下方式获取表单:
这将简化您的代码。希望有帮助!你知道吗
相关问题 更多 >
编程相关推荐