2024-06-02 11:23:46 发布
网友
我试着翻了一页。抱歉,我不能透露链接,因为我的工作保密协议。在
print response.xpath('//tr')
但奇怪的是,XPATH只适用于Chrome开发工具,而不适用于Scrapy。我通过response.body检查了刮下的HTML,HTML是正常的。在
response.body
找到了答案。结果HTML坏了,Scrapy不能自己修复,所以需要漂亮的汤帮助。我是这样做的:
from scrapy.selector import Selector from bs4 import BeautifulSoup fixed_html = str(BeautifulSoup(response.body, "lxml")) print Selector(text=fixed_html).xpath('//*')
找到了答案。结果HTML坏了,Scrapy不能自己修复,所以需要漂亮的汤帮助。我是这样做的:
相关问题 更多 >
编程相关推荐