为什么我不能用漂亮的汤刮？

mandal_url = "https://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu" r = requests.get(mandal_url, verify=False).content soup = bs4.BeautifulSoup(r, 'lxml') df = pd.read_html(str(soup.find('table',{"id":"gvAgricultureVillage"})))

3条回答

网友

1楼 · 编辑于 2024-09-30 12:16:12

尝试单击要从无效链接中删除的链接。当我单击您提供的链接或存储在mandal_url中的链接时，两者都返回一个“未找到页面”页面。因此，您正在以正确的方式进行刮取，但是您提供给刮取器的url无效/不再向上。你知道吗

网友

2楼 · 编辑于 2024-09-30 12:16:12

该页面可能需要某种登录。我自己点击链接查看，得到。你知道吗

您需要将cookies/一些其他头添加到请求中以显示“已登录”。你知道吗

网友

3楼 · 编辑于 2024-09-30 12:16:12

我无法访问该网站。但您可以通过以下方式直接阅读网页上的表格：

dfs = pd.read_html(your_url, header=0)

如果url需要身份验证，则可以通过以下方式获取表单：

r = requests.get(url_need_authentivation, auth=('myuser', 'mypasswd'))
pd.read_html(r.text, header=0)[1]

这将简化您的代码。希望有帮助！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章