使用pyarrow编写带有结构的拼花地板文件时出错

Caused by: java.lang.IllegalArgumentException: Reading past RLE/BitPacking stream. at parquet.Preconditions.checkArgument(Preconditions.java:55) at parquet.column.values.rle.RunLengthBitPackingHybridDecoder.readNext(RunLengthBitPackingHybridDecoder.java:82) at parquet.column.values.rle.RunLengthBitPackingHybridDecoder.readInt(RunLengthBitPackingHybridDecoder.java:64) at parquet.column.values.dictionary.DictionaryValuesReader.readValueDictionaryId(DictionaryValuesReader.java:76) at parquet.column.impl.ColumnReaderImpl$1.read(ColumnReaderImpl.java:166) at parquet.column.impl.ColumnReaderImpl.readValue(ColumnReaderImpl.java:464) ... 35 more

import pandas as pd import pyarrow as pa import pyarrow.parquet as pq import sys # Command line argument to set how many rows in the dataset _, n = sys.argv n = int(n) # Random whois data - should be a struct with the schema # struct<creation_date: string, # expiration_date: string, # last_updated: string, # name_server: string, # registrar: string, # status: string> # nothing terribly interesting df = pd.DataFrame({'whois':[ {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T16:10:35', 'expiration_date': '2022-07-17T16:10:35', 'last_updated': None, 'name_server': 'ns59.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {'registrar': 'Hongkong Domain Name Information Management Co., Limited', 'creation_date': '2020-07-17T10:28:36', 'expiration_date': '2021-07-17T10:28:36', 'last_updated': None, 'name_server': 'ns2.alidns.com\r', 'status': 'ok'}, {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T04:04:06', 'expiration_date': '2021-07-17T04:04:06', 'last_updated': None, 'name_server': 'ns76.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, None ]}) # strangely, the bug only pops up for datasets of certain length # When n is 2 or 5 it works fine, but 3 is busted. df = pd.concat([df for _ in range(n)]).sample(frac=1) print(df.tail()) table = pa.Table.from_pandas(df, preserve_index=False) print(table) # The write doesn't throw any errors pq.write_table(table, '/tmp/tst2.pa') # This read is the bit that throws the error - it's some random OSError df = pd.read_parquet('/tmp/tst2.pa') print(df)

1条回答

网友
1楼 · 发布于 2024-06-02 11:05:34

您的表架构具有嵌套结构。它基本上是一个名为whois的列，包含用户定义的类型，以及字段creation\u date、expiration\u date等
> table.schema whois: struct<creation_date: string, expiration_date: string, last_updated: null, name_server: string, registrar: string, status: string> child 0, creation_date: string child 1, expiration_date: string child 2, last_updated: null child 3, name_server: string child 4, registrar: string child 5, status: string
在0.17.0之前，在读取和写入拼花地板时不支持嵌套UDT（用户定义类型）。但这里已经提到了这一点：https://issues.apache.org/jira/browse/ARROW-1644
如果您使用的是旧版本的arrow，考虑到您的数据框中只有一列，我建议不要使用UDT：
df = pd.DataFrame([ {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T16:10:35', 'expiration_date': '2022-07-17T16:10:35', 'last_updated': None, 'name_server': 'ns59.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {'registrar': 'Hongkong Domain Name Information Management Co., Limited', 'creation_date': '2020-07-17T10:28:36', 'expiration_date': '2021-07-17T10:28:36', 'last_updated': None, 'name_server': 'ns2.alidns.com\r', 'status': 'ok'}, {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T04:04:06', 'expiration_date': '2021-07-17T04:04:06', 'last_updated': None, 'name_server': 'ns76.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {} ]) table = pa.Table.from_pandas(df, preserve_index=False) pq.write_table(table, '/tmp/tst2.pa') df = pd.read_parquet('/tmp/tst2.pa')
另一种选择是直接在pandas中展平桌子：
df = pd.DataFrame({'whois':[ {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T16:10:35', 'expiration_date': '2022-07-17T16:10:35', 'last_updated': None, 'name_server': 'ns59.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {'registrar': 'Hongkong Domain Name Information Management Co., Limited', 'creation_date': '2020-07-17T10:28:36', 'expiration_date': '2021-07-17T10:28:36', 'last_updated': None, 'name_server': 'ns2.alidns.com\r', 'status': 'ok'}, {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T04:04:06', 'expiration_date': '2021-07-17T04:04:06', 'last_updated': None, 'name_server': 'ns76.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, None ]}) table = pa.Table.from_pandas(df, preserve_index=False).flatten() df = pd.read_parquet('/tmp/tst2.pa') df = pd.read_parquet('/tmp/tst2.pa')
作为补充说明，您可能希望提供自己的模式，因为pandas和arrow正在尝试猜测列的类型，但对于空列，它们做得不好（最后更新的是默认为float或null）
> table.schema creation_date: string expiration_date: string last_updated: double name_server: string registrar: string status: string
所以你可以做一些类似的事情：
df = pd.DataFrame([ {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T16:10:35', 'expiration_date': '2022-07-17T16:10:35', 'last_updated': None, 'name_server': 'ns59.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {'registrar': 'Hongkong Domain Name Information Management Co., Limited', 'creation_date': '2020-07-17T10:28:36', 'expiration_date': '2021-07-17T10:28:36', 'last_updated': None, 'name_server': 'ns2.alidns.com\r', 'status': 'ok'}, {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T04:04:06', 'expiration_date': '2021-07-17T04:04:06', 'last_updated': None, 'name_server': 'ns76.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {} ]) table_schema = pa.schema([ pa.field('creation_date', pa.string()), pa.field('expiration_date', pa.string()), pa.field('last_updated', pa.string()), pa.field('name_server', pa.string()), pa.field('registrar', pa.string()), pa.field('status', pa.string()), ]) table = pa.Table.from_pandas(df, preserve_index=False) pq.write_table(table, '/tmp/tst2.pa') df = pd.read_parquet('/tmp/tst2.pa')

问题

我尝试过的东西

环境

问题

相关问题更多 >

编程相关推荐

热门问题

热门文章