抓取Javascrip中的数据

2条回答

网友

1楼 · 编辑于 2024-06-30 16:30:42

（我将此发布到了scrapy-users邮件列表，但根据Paul的建议，我将其发布在这里，因为它通过shell命令交互补充了答案。）

通常，使用第三方服务呈现某些数据可视化（地图、表格等）的网站必须以某种方式发送数据，并且在大多数情况下，可以从浏览器访问这些数据。

对于这种情况，检查（即浏览浏览器发出的请求）显示数据是从POST请求加载到https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php

所以，基本上你已经准备好了所有你想要的数据，用一个很好的json格式。

Scrapy提供了shell命令，在编写spider之前，thinker非常方便地使用该网站：

$ scrapy shell https://www.mcdonalds.com.sg/locate-us/
2013-09-27 00:44:14-0400 [scrapy] INFO: Scrapy 0.16.5 started (bot: scrapybot)
...

In [1]: from scrapy.http import FormRequest

In [2]: url = 'https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php'

In [3]: payload = {'action': 'ws_search_store_location', 'store_name':'0', 'store_area':'0', 'store_type':'0'}

In [4]: req = FormRequest(url, formdata=payload)

In [5]: fetch(req)
2013-09-27 00:45:13-0400 [default] DEBUG: Crawled (200) <POST https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php> (referer: None)
...

In [6]: import json

In [7]: data = json.loads(response.body)

In [8]: len(data['stores']['listing'])
Out[8]: 127

In [9]: data['stores']['listing'][0]
Out[9]: 
{u'address': u'678A Woodlands Avenue 6<br/>#01-05<br/>Singapore 731678',
 u'city': u'Singapore',
 u'id': 78,
 u'lat': u'1.440409',
 u'lon': u'103.801489',
 u'name': u"McDonald's Admiralty",
 u'op_hours': u'24 hours<br>\r\nDessert Kiosk: 0900-0100',
 u'phone': u'68940513',
 u'region': u'north',
 u'type': [u'24hrs', u'dessert_kiosk'],
 u'zip': u'731678'}

简而言之：在spider中，您必须返回上面的FormRequest(...)，然后在回调中从response.body加载json对象，最后为列表中每个存储的数据创建一个具有所需值的项。

像这样的：

class McDonaldSpider(BaseSpider):
    name = "mcdonalds"
    allowed_domains = ["mcdonalds.com.sg"]
    start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]

    def parse(self, response):
        # This receives the response from the start url. But we don't do anything with it.
        url = 'https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php'
        payload = {'action': 'ws_search_store_location', 'store_name':'0', 'store_area':'0', 'store_type':'0'}
        return FormRequest(url, formdata=payload, callback=self.parse_stores)

    def parse_stores(self, response):
        data = json.loads(response.body)
        for store in data['stores']['listing']:
            yield McDonaldsItem(name=store['name'], address=store['address'])

网友
2楼 · 编辑于 2024-06-30 16:30:42

在您选择的浏览器中打开https://www.mcdonalds.com.sg/locate-us/时，打开“检查”工具（希望它有一个，例如Chrome或Firefox），并查找“网络”选项卡。
您可以进一步筛选“XHR”（XMLHttpRequest）事件，您将看到一个使用此主体的POST请求https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php
action=ws_search_store_location&store_name=0&store_area=0&store_type=0
对POST请求的响应是一个JSON对象，包含您想要的所有信息
import json import pprint ... class MySpider(BaseSpider): ... def parse_json(self, response): js = json.loads(response.body) pprint.pprint(js)
这将输出如下内容：
{u'flagicon': u'https://www.mcdonalds.com.sg/wp-content/themes/mcd/images/storeflag.png', u'stores': {u'listing': [{u'address': u'678A Woodlands Avenue 6 #01-05 Singapore 731678', u'city': u'Singapore', u'id': 78, u'lat': u'1.440409', u'lon': u'103.801489', u'name': u"McDonald's Admiralty", u'op_hours': u'24 hours \r\nDessert Kiosk: 0900-0100', u'phone': u'68940513', u'region': u'north', u'type': [u'24hrs', u'dessert_kiosk'], u'zip': u'731678'}, {u'address': u'383 Bukit Timah Road #01-09B Alocassia Apartments Singapore 259727', u'city': u'Singapore', u'id': 97, u'lat': u'1.319752', u'lon': u'103.827398', u'name': u"McDonald's Alocassia", u'op_hours': u'Daily: 0630-0100', u'phone': u'68874961', u'region': u'central', u'type': [u'24hrs_weekend', u'drive_thru', u'mccafe'], u'zip': u'259727'}, ... {u'address': u'60 Yishuan Avenue 4 #01-11 Singapore 769027', u'city': u'Singapore', u'id': 1036, u'lat': u'1.423924', u'lon': u'103.840628', u'name': u"McDonald's Yishun Safra", u'op_hours': u'24 hours', u'phone': u'67585632', u'region': u'north', u'type': [u'24hrs', u'drive_thru', u'live_screening', u'mccafe', u'bday_party'], u'zip': u'769027'}], u'region': u'all'}}
我让你去提取你想要的田地。
在用Scrapy发送的FormRequest（）中，您可能需要添加一个“X-Requested-with:XMLHttpRequest”头（如果您在inspect工具中查看请求头，浏览器将发送该头）

相关问题更多 >

编程相关推荐

热门问题

热门文章