运行我的刮刀,我可以看到它刮不必要的链接以外的链接到每个学校我需要什么。不过,我已经创建了正确的XPath。站点包含lazyloading方法。可能需要获取json响应。我试过:
import requests
from lxml import html
url = "http://www.boarding.org.au/find-a-school"
def LazyLoadWeb(address):
try :
page = requests.get(address, timeout=30)
except Exception:
print('timed out')
else:
tree = html.fromstring(page.text)
titles = tree.xpath('//div[contains(@class,"clearfix")]')
for title in titles:
links=title.xpath('.//a/@href')
for link in links:
print(link)
LazyLoadWeb(url)
关于json响应,您是对的。这个站点使用Ajax来填充内容。您需要发出post请求,并从响应中简单地解析json
相关问题 更多 >
编程相关推荐