Scrapy支持JavaScript进行网络绘图吗?

2024-09-29 17:18:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我听说scrapy不支持javascript。我想知道我是否可以使用scrapy来爬网链接,使用crawspider到我们的内部网站点,我们的内部网站点有javascript,我相信它会在你点击一个链接时生成,但我不能百分之百确定。在

但是视图源代码是由xml样式表组成的,它的数据与我使用firebug时的html相同。我也不能使用html标记来抓取站点,我需要使用xml标记来进行抓取。我搞不懂为什么它既有html又有xml,而且两者都有数据,为什么我不能只抓取html中的xml?在

我知道我可以使用xml标记抓取第一页,但我可以继续跟踪链接并继续爬行吗?在

我还能用scrapy的爬行蜘蛛来爬行每一个链接还是不行?如果我不能,你能给我推荐另一种工具吗?它支持javascripts和身份验证后登录(https)。?在

谢谢!在

以下是我使用firebug时的HTML数据(与XML相同的数据)

<tr>
<td class="crt">1</td>
<td class="listCell" align="center">
<td class="listCell" align="center">
<a href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100">probe0</a>
</td>
<td class="listCell" align="center">
<a href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100">6505550000</a>
</td>
<td class="listCell" align="center">
<a href="/dis/packages.jsp?view=timeline&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100&date=20130716T141624949">2013-07-16 14:16:24.949</a>
</td>
<td class="cell" align="center">2013-07-16 14:16:24.949</td>
<td class="cell" align="left">1 - SMS_PullRequest_CS</td>
<td class="listCell" align="right">
<a href="/dis/profile_download?profileId=4294967295">4294967295</a>
</td>
<td class="listCell" align="center">
<a href="/dis/sessions.jsp?view=list&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">view sessions</a>
</td>
<td class="listCell" align="center">
<a href="/dis/errors_agg.jsp?view=list&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">view errors</a>
</td>
</tr>

以下是我使用视图源XML样式表(与HTML相同的数据)时的数据

^{pr2}$

Tags: 数据viewdevicexmlclasstdhrefcenter
2条回答

我也在为js刮擦而挣扎。。。那里有五个。在

我知道如果scrapy对某个特定网站的js做出响应,一个快速的方法就是从scrapyshell进行检查。http://doc.scrapy.org/en/latest/topics/shell.html您可以通过view(response)查看scrapy如何理解您的请求url。在

例如,view(response)不显示来自bestbuy的产品评论,但是eBay的产品评论可以。在

对于相关搜索,http://snipplr.com/all/tags/scrapy/可能会有帮助。在

如果你把你的蜘蛛贴在这里也可能有用。在

祝你好运!如果你解决了给我留言!在

通常对于JS,您使用一个无头浏览器来执行javascript。^使用scrapy splash中间件的{a1}和{a2}是其中两个流行的选择。在

相关问题 更多 >

    热门问题