如何只将特定类型的行加载到数据帧中以避免内存过载

df = pd.read_csv('/Volumes/big-flash-drive/asdf/FaceImageCroppedWithAlignment.tsv', sep='\t', nrows='m.0107_f', names = ["Freebase MID", "EntityNameString", "ImageURL", "FaceID","FaceRectangle_Base64Encoded", "FaceData_Base64Encoded"])

2条回答

网友

1楼 · 编辑于 2024-10-04 05:28:24

如果必须使用CSV文件，请尝试以下方法：

fn = '/Volumes/big-flash-drive/asdf/FaceImageCroppedWithAlignment.tsv'
cols = ["Freebase MID","EntityNameString","ImageURL", "FaceID",
        "FaceRectangle_Base64Encoded","FaceData_Base64Encoded"]
chunks = pd.read_csv(fn, sep='\t', chunksize=10**5, names=cols)
df = pd.concat([x.query("index == 'm.0107_f'") for x in chunks], ignore_index=True)

如果您可以以不同的格式存储数据-我强烈建议您使用HDF5格式或将数据存储在RDBMS数据库中：

演示：

df = pd.read_hdf('/path/to/file.h5', 'hdf_key', where="index == 'm.0107_f'")

这将只读取满足where子句的行

网友

2楼 · 编辑于 2024-10-04 05:28:24

import blaze
import pandas as pd
from io import StringIO

# using StringIO for demonstration-purposes! Don't actually do this in your code!
# your code would look like: data = blaze.data('myfile.csv') 
s = '''idx,MID,S,A
m.0107_f,a,1,True
m.0107_x,b,2,False
m.0107_f,c,3,True'''
data = pd.read_csv(StringIO(s))

data看起来像：

        idx MID  S      A
0  m.0107_f   a  1   True
1  m.0107_x   b  2  False
2  m.0107_f   c  3   True

现在火焰：

csv_data = blaze.data(data)
csv_data[csv_data['idx'] == 'm.0107_f']

结果：

        idx MID  S     A
0  m.0107_f   a  1  True
2  m.0107_f   c  3  True

这里的好处是使用blaze只加载内存中满足条件的项（相当于m.0107_f）。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何只将特定类型的行加载到数据帧中以避免内存过载

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >