如何让scrapy跟随javascript生成的url？

var _currentPageIndex =346; var _listArticleCount =-1; var _listPaginationCount =-1; function a_next(url) { if(_currentPageIndex > 1) { location.href =url.replace('i/','i/'+(_currentPageIndex-1)); } }

1条回答

网友

1楼 · 发布于 2024-10-01 02:20:27

我想提出一种不渲染javascript，而是从页面中提取javascript信息的方法。在

您可以在list-pages之后向您的Rule添加一个parse_list回调

rules = (
    Rule(LinkExtractor(allow=(r"http://news.scut.edu.cn/s/22/t/.+/list.*")), callback = "parse_list"),
    Rule(LinkExtractor(allow=(r"http://news.scut.edu.cn/s/22/t/.+/info.*")), callback = "parse_item")
)

并在回调中实现一个regex来解析javascript并获得（列表的）总页数：

^{pr2}$

如果有一个page_Number，你可以在一个循环中创建所有的页码链接（一直到第一页），并将这些requests传递给爬虫程序。在

上面显示的代码不起作用，但可以作为起点。在

编程相关推荐

java在LWJGL窗口中使用Slick2D呈现文本？
java Spring和hibernate集成无法打开JPA
java不提供引擎密钥。createKey（种类，id）是否总是返回相同的结果？
如果字符串包含语句，则为Java或运算符
在Windows 2008 R2德语区域设置中，unicode附加的java代码无法在输出中正确打印德语字符
java Maven依赖项排除未按预期工作
用Java实现类的接口
在Emacs中进行Java开发的最佳方法是什么？
为什么我的Java Simple Elasticsearch停留在doSample方法上？
来自持久性的javajar文件。在eclipse中找不到xml

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何让scrapy跟随javascript生成的url？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >