以base64字符串的形式读取pandas列

2024-09-29 19:08:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个csv文件,我已经读到熊猫。csv中的一列包含base64编码的值,但熊猫会将其作为字符串读入。如何将该值(现在作为字符串读入)转换回可用的base64值。结构是这样的

我举了一个例子:

asset_id,asset_name,file_extension,concept_name,image_byte
204863410,7613287394927_H_enUK_1634104697919.jpg,jpg,Nestle Confectionery:Hazelnut,

我在这个文件中还加载了一些示例,用于重新创建错误here.

更新:

正如一位评论员指出的,我试图转换的字符串已经是base64,这确实是正确的。这就是问题所在

该字符串已被base64编码,但我不确定为什么它仍然被拒绝。我认为这可能是在开始和结束时用“失败”来读入字符串。当我尝试按原样将字符串加载到API调用中时,我得到如下结果

image=resources_pb2.Image(
TypeError: '/9j/4AAQSkZJRgABAQIAHAAcAAD/2wBDAAYEBQYFBAYGBQYHBwYIChAKCgkJChQODwwQFxQYGBcUFhYaHSUfGhsjHBYWICwgIyY has type str, but expected one of: bytes

这是我正在使用的代码块

post_inputs_response = stub.PostInputs(
service_pb2.PostInputsRequest(
    inputs=[
        resources_pb2.Input(
            data=resources_pb2.Data(
                image=resources_pb2.Image(
                    base64= img_byte_raw
                )
            )
        )
    ]
),
metadata=metadata

)

我从Clarifai的文件链接here

我将感谢任何帮助


Tags: 文件csv字符串nameimage编码herebyte
2条回答

好的,我想我已经发现你的问题了。让我们下载一个新文件作为示例,并使用它。我正在处理一小块灰色正方形

import cv2
from base64 import b64encode, b64decode
import numpy as np

# Load image, b64 encode, byte decode to string
img = cv2.imread(r'C:\Users\me\Pictures\koala.png', cv2.IMREAD_GRAYSCALE)
encoded_img = b64encode(img)
image_b64_str = encoded_img.decode("utf-8")

# Read the string back, encode into bytes, then b64 decode
image_b64_in = image_b64_str.encode("utf-8")
base64_decoded_image = b64decode(image_b64_in)

decodeed_img_from_string_only = np.frombuffer(image_b64_in, dtype=np.uint8)
decodeed_img_from_b64_decode = np.frombuffer(base64_decoded_image, dtype=np.uint8)


print(img)
print(f"b64 encoded: {encoded_img}")
print(f"b64 encoded then string decoded: {image_b64_str}")

print('')
print(f"String encoded to bytes: {image_b64_in}")
print(f"Bytes decoded to array: {decodeed_img_from_string_only}")
print('')
print(f"String encoded to bytes and then b64 decoded: {base64_decoded_image}")
print(f"B64-decoded bytes decoded to array: {decodeed_img_from_b64_decode}")

以下是上述模块的输出:

[[181 182 182 182 181 182 186]
 [181 182 182 182 182 183 186]
 [182 182 183 183 184 185 186]
 [182 182 183 184 185 186 186]
 [182 182 182 183 185 186 187]
 [180 181 181 182 184 185 187]
 [178 179 181 181 182 184 188]
 [177 179 180 180 181 183 188]]
b64 encoded: b'tba2trW2urW2tra2t7q2tre3uLm6tra3uLm6ura2tre5uru0tbW2uLm7srO1tba4vLGztLS1t7w='
b64 encoded then string decoded: tba2trW2urW2tra2t7q2tre3uLm6tra3uLm6ura2tre5uru0tbW2uLm7srO1tba4vLGztLS1t7w=

String encoded to bytes: b'tba2trW2urW2tra2t7q2tre3uLm6tra3uLm6ura2tre5uru0tbW2uLm7srO1tba4vLGztLS1t7w='
Bytes decoded to array: [116  98  97  50 116 114  87  50 117 114  87  50 116 114  97  50 116  55
 113  50 116 114 101  51 117  76 109  54 116 114  97  51 117  76 109  54
 117 114  97  50 116 114 101  53 117 114 117  48 116  98  87  50 117  76
 109  55 115 114  79  49 116  98  97  52 118  76  71 122 116  76  83  49
 116  55 119  61]

String encoded to bytes and then b64 decoded: b'\xb5\xb6\xb6\xb6\xb5\xb6\xba\xb5\xb6\xb6\xb6\xb6\xb7\xba\xb6\xb6\xb7\xb7\xb8\xb9\xba\xb6\xb6\xb7\xb8\xb9\xba\xba\xb6\xb6\xb6\xb7\xb9\xba\xbb\xb4\xb5\xb5\xb6\xb8\xb9\xbb\xb2\xb3\xb5\xb5\xb6\xb8\xbc\xb1\xb3\xb4\xb4\xb5\xb7\xbc'
B64-decoded bytes decoded to array: [181 182 182 182 181 182 186 181 182 182 182 182 183 186 182 182 183 183
 184 185 186 182 182 183 184 185 186 186 182 182 182 183 185 186 187 180
 181 181 182 184 185 187 178 179 181 181 182 184 188 177 179 180 180 181
 183 188]

值得注意的是,人类可读的字符串重新编码看起来与原始b64编码相同,但生成的数组与原始数组完全不同,而字符串重新编码的b64编码在视觉上看起来非常不同,但重新创建了原始数组(没有合适的形状,这是典型的缓冲区。你需要自己提供)

我认为,如果要读取保存的字符串以转换它们,则需要在其上使用df['col'].applymap(lambda x: b64decode(x.encode("utf-8")))

然而这引出了一个问题-为什么作为字节表示的your_string.encode("utf-8")不适用于API,而b64encode(b64decode(your_string.encode("utf-8")))理论上应该产生相同的表示…我对此不确定。也许可以确保df['col'].applymap(lambda x: x.encode("utf-8"))df['col'].astype(bytes)作为另一个评论者建议的是给你想要的

进一步阅读: Convert string of base64 back to base64 bytesHow do you decode Base64 data in Python?

在四行的linked Book1.csv中,前两项是有效的base64编码,但后两项不是。最后一行中的字符串非常长,可能在某个点被截断。您收到的TypeError表示需要将base64编码的字符串数据转换回bytes对象

下面是将base64字符串转换为bytes对象的示例。我使用枕头(pip install Pillow)来显示图像,以验证它们确实被正确解码:

import pandas as pd
import base64
from PIL import Image
from io import BytesIO

def decode(s):
    try:
        return base64.b64decode(s)
    except ValueError as e:
        return e

df = pd.read_csv(r'downloads\book1.csv',encoding='utf-8-sig')
df['image_byte'] = df['image_byte'].apply(decode)
print(df)
Image.open(BytesIO(df.image_byte[0])).show()
Image.open(BytesIO(df.image_byte[1])).show()

输出:

    asset_id  ...                                         image_byte
0  204863410  ...  b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x02...
1  204863409  ...  b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x02...
2  204863134  ...                                  Incorrect padding
3  204863133  ...                                  Incorrect padding

[4 rows x 5 columns]

第一幅图:

First image example

相关问题 更多 >

    热门问题