获取CParserError。Pandas是否对单元格中某个值的最大大小设置了限制？

In [1]: import pandas as pd In [2]: df = pd.read_csv('data.csv.gz', compression='gzip', header=None, names=['accession', 'seq_len', 'tax_id', 'seq'], nrows=43451)

43450 FP929055.1,3341681,657313,AAAGAACCTTGATAACTGAACAATAGACAACAACAACCCTTGAAAATTTCTTTAAGAGAA.... 43451 FP929058.1,3096657,657310,TTCGCGTGGCGACGTCCTACTCTCACAAAGGGAAACCCTTCACTACAATCGGCGCTAAGA.... 43452 FP929059.1,2836123,717961,GTTCCTCATCGTTTTTTAAGCTCTTCTCCGTACCCTCGACTGCCTTCTTTCTCACTGTTC.... 43453 FP929060.1,3108859,245012,GGGGTATTCATACATACCCTCAAAACCACACATTGAAACTTCCGTTCTTCCTTCTTCCTC.... 43454 FP929061.1,3114788,649756,TAACAACAACAGCAACGGTGTAGCTGATGAAGGAGACATATTTGGATGATGAATACTTAA.... 43455 FP929063.1,34221,29290,CCTGTCTATGGGATTTGGCAGCGCAATGCAGGAAAACTACGTCCTAAGTGTGGAGATCGATGC....

1条回答

网友

1楼 · 发布于 2024-06-13 13:13:19

好吧，最后一行说明了一切，它没有足够的内存来分割数据块。我不确定归档块读取是如何工作的，以及它加载到内存中的数据量，但很明显，您必须以某种方式控制块的大小。我在这里找到了一个解决方案：

pandas-read-csv-out-of-memory

在这里：

out-of-memory-error-when-reading-csv-file-in-chunk

请试着逐行阅读正常的文件，看看它是否有效。在

相关问题更多 >

编程相关推荐

热门问题

热门文章