Python：将原始字符串转换为字节字符串，而不添加转义字符

r = requests.get('http://www.pythonchallenge.com/pc/def/integrity.html') doc = html.fromstring(r.content) comment = doc.xpath('//comment()')[0].text.split('\n')[1:3] pattern = re.compile("[a-z]{2}: '(.+)'") un = re.search(pattern, comment[0]).group(1)

2条回答

网友

1楼 · 编辑于 2024-09-26 18:00:30

如果我正确理解您的目标，可以通过以下方式实现：

word = 'BZh91AY&SYA\xaf\x82\r\x00\x00\x01\x01\x80\x02\xc0\x02\x00 \x00!\x9ah3M\x07<]\xc9\x14\xe1BA\x06\xbe\x084'

my_byte_array = word.encode()

print(my_byte_array)

结果是：

^{pr2}$

关于这个有一个很好的讨论，所以post如果这还不够的话。他们讨论了将UTF-8字符串编码到字节数组的最佳方法（根据PEP），以及类涉及的其他方法。在

网友

2楼 · 编辑于 2024-09-26 18:00:30

你的bug早就存在了。唯一可接受的解决方案是更改抓取代码，使其返回字节对象而不是文本对象。不要试图将字符串un转换为字节，这样做是不可靠的。在

执行以下操作：

>>> un = 'BZh91AY&SYA\xaf\x82\r\x00\x00\x01\x01\x80\x02\xc0\x02\x00 \x00!\x9ah3M\x07<]\xc9\x14\xe1BA\x06\xbe\x084'
>>> bz2.decompress(un.encode('raw_unicode_escape'))
b'huge'

“raw_unicode_escape”只是一种拉丁语-1编码，它为外部的字符提供了一个内置的回退机制。此编码对其他代码点使用\uxxx和\UXXXXXXXX。现有的反斜杠不会以任何方式转义。它在Python pickle协议中使用。对于不能用\xXX序列表示的Unicode字符，数据将损坏。

web抓取代码没有业务返回bz2编码的字节作为str，因此您需要解决问题的原因，而不是试图处理症状。在

相关问题更多 >

编程相关推荐

热门问题

热门文章