如何在不获取csv-fi数据的情况下只从s3 bucket读取5条记录并返回

import boto3 from botocore.client import Config import pandas as pd ACCESS_KEY_ID = 'something' ACCESS_SECRET_KEY = 'something' BUCKET_NAME = 'something' Filename='dataRepository/source/MergedSeedData(Parts_skills_Durations).csv' client = boto3.client("s3", aws_access_key_id=ACCESS_KEY_ID, aws_secret_access_key=ACCESS_SECRET_KEY) obj = client.get_object(Bucket=BUCKET_NAME, Key=Filename) Data = pd.read_csv(obj['Body']) # data1 = Data.columns # return data1 Data=Data.head(5) print(Data)

2条回答

网友

1楼 · 编辑于 2024-06-22 10:34:20

您可以使用HTTPRange:头（see RFC 2616），它接受字节范围参数。s3api对此有一个规定，这将帮助您不必读取/下载整个S3文件。在

样本代码：

import boto3
obj = boto3.resource('s3').Object('bucket101', 'my.csv')
record_stream = obj.get(Range='bytes=0-1000')['Body']
print(record_stream.read())

这将只返回头中提供的byte_range_数据。在

但是您需要修改它来将字符串转换为Dataframe。对于来自.csv文件的字符串中的\t和{}，可能是{}

网友

2楼 · 编辑于 2024-06-22 10:34:20

您可以使用reading a file in chunks的pandas功能，只需加载所需的数据即可。在

Data_iter = pd.read_csv(obj['Body'], chunksize = 5)
Data = Data_iter.get_chunk()
print(Data)

相关问题更多 >

编程相关推荐

热门问题

热门文章