在python 3中解码base64字符串（是否使用lxml）

2条回答

网友
1楼 · 编辑于 2024-09-28 22:31:57

我没有安装Python3，但听起来您需要将从lxml返回的Unicode转换为字节，也许可以通过调用.encode（'ascii'）？

网友
2楼 · 编辑于 2024-09-28 22:31:57

好吧，我想我要总结一下我目前对事物的理解（请随意纠正我）。希望它能帮助其他人，就像我一样困惑。
当然，功劳完全归于thebjorn和delnan。
所以，从最常见的事情开始：这里有Unicode，它是一个全球标准，为所有你能想象到的外来字符分配代码（或代码点）。这些代码只是整数。维基百科称，截至Unicode 6.1，共有109975个图形字符。
还有一些编码定义了如何用字节码指定Unicode字符。一个字节不足以指定任意Unicode字符。尽管如此，如果只取其中的一小部分（英文字母表、数字、标点符号、一些控制字符），每个字符只需一个字节（甚至7位；请参见ASCII）。
要在任何地方传递Unicode字符串，需要对其进行字节编码，然后在另一端进行解码。
在Python 2中，str实际上是字节，unicode是Unicode，但是python2会在需要时为您执行隐式编码/解码。它将尝试使用ASCII编码。
在Python 3中，str始终是Unicode字符串，bytes是实际字节的新数据类型。Python 3从不进行隐式转换，您始终需要自己进行转换并指定编码。这意味着你的程序只有在你了解发生在我身上的事情后才能运行。
现在，这或多或少是清楚的，让我们转到base64编码，这也是一种分类编码，但有一个稍微不同的含义。假设您有一些二进制数据（即字节），它们可能意味着任何东西（在我的例子中是一堆float）。现在要用字符串表示这个二进制数组。这就是base64编码的含义：您的字节被表示为ASCII字符串。
Base64表示6位，因此在Base64编码的字符串中，单个字符代表6位数据。这就是为什么base64编码字符串的长度必须是4的倍数：否则编码的字节数将不是整数。
最后，要从base64解码，需要一个ASCII字符串。Unicode字符串不行，只能有base64字母表中的字符。Base64 module在Python中完成任务。base64.b64decode()函数接受一个字节字符串作为参数。在Python 2中，它的意思是：str。在Python 3中，它的意思是：bytes。所以如果你有一个str，比如
>>> s = 'U3RhY2sgT3ZlcmZsb3c='
在Python 2中，您可以
>>> s.decode('base64')
因为s已经是ASCII格式。在Python 3中，首先需要用ASCII编码，所以必须：
>>> base64.b64decode(s.encode('ascii'))
顺便说一下，这将返回一个bytes对象，所以如何处理这些字节真的取决于您。也许这是我的浮动，但也许你应该尝试将其解码为ASCII：）然而，在Python 2中，它只是一个str。无论如何，请查看^{}以获得从这些字节解包数据的工具。
因此，如果需要在Python 2和3上运行代码，请使用最后一个。要确保最后有Unicode（如果要从base64解码文本），必须对其进行解码：
>>> base64.b64decode(s.encode('ascii')).decode('ascii')
在Python 2上，encode('ascii')不会有效地执行任何操作，因为它应用于str。因此，它将首先执行隐式转换到Unicode，然后执行所需的操作（将其转换回ASCII）。decode('ascii')将在Python 2上返回一个unicode对象。

相关问题更多 >

编程相关推荐

热门问题

热门文章