如何分配unicode json字符串

2024-06-28 20:43:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用lxml并尝试将解析的数据转换成json字符串。但我的数据是unicode字符串,它会自动转换。你知道吗

这是我的密码:

from lxml import html,etree
import pprint
import requests
url="http://thuvienphapluat.vn"
page = requests.get(url)
tree=html.fromstring(page.content)
vbplm=tree.xpath('//div[@id="VBPLMOI"]//div[@class="left-col"]')
rlst={}
# print etree.tostring(tree.find('./a'),pretty_print=True)
import re
for vb in vbplm:
    id = re.sub(r"\n*\s",'',vb.xpath('.//*[@class="number"]/text()')[0])
    rlst[id]={}
    tmp=vb.xpath('.//a')

    for tpm_part in tmp:
        rlst[id][
                (tpm_part.xpath('.//text()'))[0].encode(encoding='utf-8')
            ]=((tpm_part.get("href")))
        print (tpm_part.xpath('.//text()'))[0].encode(encoding='utf-8')
        print "<<<<<<<<"
        break
    break
pprint.pprint(rlst)

以下是我的结果:

Văn bản hợp nhất 02/VBHN-BGDĐT năm 2017 hướng dẫn Quyết định 152/2007/QĐ-TTg về học bổng chính sách đối với học sinh, sinh viên học tại cơ sở giáo dục thuộc hệ thống giáo dục quốc dân do Bộ Giáo dục và Đào tạo ban hành
<<<<<<<<

    {'1': {'V\xc4\x83n b\xe1\xba\xa3n h\xe1\xbb\xa3p nh\xe1\xba\xa5t 02/VBHN-BGD\xc4\x90T n\xc4\x83m 2017 h\xc6\xb0\xe1\xbb\x9bng d\xe1\xba\xabn Quy\xe1\xba\xbft \xc4\x91\xe1\xbb\x8bnh 152/2007/Q\xc4\x90-TTg v\xe1\xbb\x81 h\xe1\xbb\x8dc b\xe1\xbb\x95ng ch\xc3\xadnh s\xc3\xa1ch \xc4\x91\xe1\xbb\x91i v\xe1\xbb\x9bi h\xe1\xbb\x8dc sinh, sinh vi\xc3\xaan h\xe1\xbb\x8dc t\xe1\xba\xa1i c\xc6\xa1 s\xe1\xbb\x9f gi\xc3\xa1o d\xe1\xbb\xa5c thu\xe1\xbb\x99c h\xe1\xbb\x87 th\xe1\xbb\x91ng gi\xc3\xa1o d\xe1\xbb\xa5c qu\xe1\xbb\x91c d\xc3\xa2n do B\xe1\xbb\x99 Gi\xc3\xa1o d\xe1\xbb\xa5c v\xc3\xa0 \xc4\x90\xc3\xa0o t\xe1\xba\xa1o ban h\xc3\xa0nh':
 'http://thuvienphapluat.vn/van-ban/Giao-duc/Van-ban-hop-nhat-02-VBHN-BGDDT-huong-dan-152-2007-QD-TTg-hoc-bong-chinh-sach-hoc-sinh-sinh-vien-342726.aspx'}}

它并没有保存为格式“Văn b̕n bản hợh h h h?h h h h h h t t t t năt t t t,2017年h hăt̕不保存为格式“V斏n n b b?n h h h h h h h h h h h h h h-bfbbfn-bg-bg-bg-bg-bfffn-bg-bg-bg-bg,t年t t n n n n n t?n n m 2017年h,2017年h h h h h h h h h?t,2017年h h h,2017年h h h h h h h h,他说:“我是一个很好的朋友。”。你知道吗

请帮助我创建这个unicode json字符串。你知道吗

谢谢


Tags: importidxpathbgprintpartxc4nh