我听说scrapy不支持javascript。我想知道我是否可以使用scrapy来爬网链接,使用crawspider到我们的内部网站点,我们的内部网站点有javascript,我相信它会在你点击一个链接时生成,但我不能百分之百确定。在
但是视图源代码是由xml样式表组成的,它的数据与我使用firebug时的html相同。我也不能使用html标记来抓取站点,我需要使用xml标记来进行抓取。我搞不懂为什么它既有html又有xml,而且两者都有数据,为什么我不能只抓取html中的xml?在
我知道我可以使用xml标记抓取第一页,但我可以继续跟踪链接并继续爬行吗?在
我还能用scrapy的爬行蜘蛛来爬行每一个链接还是不行?如果我不能,你能给我推荐另一种工具吗?它支持javascripts和身份验证后登录(https)。?在
谢谢!在
以下是我使用firebug时的HTML数据(与XML相同的数据)
<tr>
<td class="crt">1</td>
<td class="listCell" align="center">
<td class="listCell" align="center">
<a href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100">probe0</a>
</td>
<td class="listCell" align="center">
<a href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100">6505550000</a>
</td>
<td class="listCell" align="center">
<a href="/dis/packages.jsp?view=timeline&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100&date=20130716T141624949">2013-07-16 14:16:24.949</a>
</td>
<td class="cell" align="center">2013-07-16 14:16:24.949</td>
<td class="cell" align="left">1 - SMS_PullRequest_CS</td>
<td class="listCell" align="right">
<a href="/dis/profile_download?profileId=4294967295">4294967295</a>
</td>
<td class="listCell" align="center">
<a href="/dis/sessions.jsp?view=list&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">view sessions</a>
</td>
<td class="listCell" align="center">
<a href="/dis/errors_agg.jsp?view=list&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">view errors</a>
</td>
</tr>
以下是我使用视图源XML样式表(与HTML相同的数据)时的数据
^{pr2}$
我也在为js刮擦而挣扎。。。那里有五个。在
我知道如果scrapy对某个特定网站的js做出响应,一个快速的方法就是从scrapyshell进行检查。http://doc.scrapy.org/en/latest/topics/shell.html您可以通过view(response)查看scrapy如何理解您的请求url。在
例如,view(response)不显示来自bestbuy的产品评论,但是eBay的产品评论可以。在
对于相关搜索,http://snipplr.com/all/tags/scrapy/可能会有帮助。在
如果你把你的蜘蛛贴在这里也可能有用。在
祝你好运!如果你解决了给我留言!在
通常对于JS,您使用一个无头浏览器来执行javascript。^使用scrapy splash中间件的{a1}和{a2}是其中两个流行的选择。在
相关问题 更多 >
编程相关推荐