utf8编码中的Scrapy json响应转换

import scrapy from porua_scrapper.items import Category from porua_scrapper.config import SITE_URL class CategoriesSpider(scrapy.Spider): name = "categories" start_urls = [] for I in range(2): url = SITE_URL + "book/categories?page=" + str(I+1) start_urls.append(url) print(start_urls) def parse(self, response): # print(response.css('ul.categoryList li div.pFIrstCatCaroItem a').extract_first()) for category in response.css('ul.categoryList li'): categoryObj = Category() categoryObj['name'] = category.css('div.bookSubjectCaption h2::text').extract_first() categoryObj['url'] = category.css('a::attr(href)').extract_first() yield categoryObj

1条回答

网友

1楼 · 发布于 2024-10-01 07:42:48

首先，{"url": "/book/category/271/\u09a8\u09be\u099f\u0995", "name": "\u09a8\u09be\u099f\u0995"}是有效的JSON数据

>>> import json
>>> d = json.loads('''{"url": "/book/category/271/\u09a8\u09be\u099f\u0995", "name": "\u09a8\u09be\u099f\u0995"}''')
>>> print(d['name'])
নাটক

任何解释这些数据的程序都应该理解（即解码）字符。Pythonjson模块调用此ensure_ascii：

If ensure_ascii is true (the default), all non-ASCII characters in the output are escaped with \uXXXX sequences, and the result is a str instance consisting of ASCII characters only.

这是Scrapy feed exporter默认用于JSON输出的内容。在

但是如果您需要输出JSON文件来使用其他编码，比如UTF-8，那么可以使用Scrapy的^{} setting。在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章