如何读取空格分隔的数据、两行类型、没有固定宽度和大量缺少的值？问题的回答

如何读取空格分隔的数据、两行类型、没有固定宽度和大量缺少的值？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

如果数据是固定宽度，那么有很多关于如何读取缺少值的空格分隔数据的好信息 <ul> <li><a href="http://jonathansoma.com/lede/foundations-2017/pandas/opening-fixed-width-files/" rel="nofollow noreferrer">http://jonathansoma.com/lede/foundations-2017/pandas/opening-fixed-width-files/</a></li> <li><a href="https://stackoverflow.com/questions/17997634/reading-space-delimited-file-in-python-pandas-with-missing-values">Reading space delimited file in Python/Pandas with missing values</a></li> <li><a href="https://stackoverflow.com/questions/44472392/ascii-table-with-consecutive-white-spaces-as-separators-and-missing-data-python">ASCII table with consecutive white-spaces as separators and missing data python pandas</a></li> </ul> 我目前正试图阅读日本气象局的台风历史数据，该数据应该有<a href="https://www.jma.go.jp/jma/jma-eng/jma-center/rsmc-hp-pub-eg/Besttracks/e_format_bst.html" rel="nofollow noreferrer">this format</a>，但实际上没有： <pre><code># Header rows: 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 ::::+::::|::::+::::|::::+::::|::::+::::|::::+::::|::::+::::|::::+::::|::::+::::| AAAAA BBBB CCC DDDD EEEE F G HHHHHHHHHHHHHHHHHHHH IIIIIIII # Data rows: 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 ::::+::::|::::+::::|::::+::::|::::+::::|::::+::::|::::+::::|::::+::::|::::+::::| AAAAAAAA BBB C DDD EEEE FFFF GGG HIIII JJJJ KLLLL MMMM P </code></pre> 它与美国国家海洋和大气管理局的飓风最佳路径数据非常相似，只是它用逗号分隔，缺少的值是-999或NaN，这简化了数据的读取。此外，日本的数据实际上并不遵循广告的格式。例如，数据行中的列<code>FFFF</code>并不总是具有宽度4。有时它的宽度为3 我必须说，我完全不知道如何将这些数据处理成数据帧。我研究了<code>pd.read_fwf</code>方法，最初它看起来很有希望，直到我发现格式错误的列和两种不同的行类型 <h3>我的问题：</h3> 我如何清理这些数据并将其放入数据框？我只想找到一个不同的数据集，但老实说，我在其他地方找不到任何全面的台风数据

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

以下是我最终如何做到这一点的。密钥意识到数据中有两种类型的行，但在每种类型中，列的宽度是固定的： <pre><code>header_fmt = "AAAAA BBBB CCC DDDD EEEE F G HHHHHHHHHHHHHHHHHHHH IIIIIIII" track_fmt = "AAAAAAAA BBB C DDD EEEE FFFF GGG HIIII JJJJ KLLLL MMMM P" </code></pre> 所以，事情是这样的。我编写了这两个函数来帮助我重新格式化文本文件int CSV格式： <pre><code> def get_idxs(string, char): idxs = [] for i in range(len(string)): if string[i - 1].isalpha() and string[i] == char: idxs.append(i) return idxs def replace(string, idx, replacement): string = list(string) try: for i in idx: string[i] = replacement except TypeError: string[idx] = replacement return ''.join(string) # test it out header_fmt = "AAAAA BBBB CCC DDDD EEEE F G HHHHHHHHHHHHHHHHHHHH IIIIIIII" track_fmt = "AAAAAAAA BBB C DDD EEEE FFFF GGG HIIII JJJJ KLLLL MMMM P" header_idxs = get_idxs(header_fmt, ' ') track_idxs = get_idxs(track_fmt, ' ') print(replace(header_fmt, header_idxs, ',')) print(replace(track_fmt, track_idxs, ',')) </code></pre> 在格式字符串上测试函数时，我们看到逗号被放在适当的位置： <pre><code>AAAAA,BBBB, CCC,DDDD,EEEE,F,G,HHHHHHHHHHHHHHHHHHHH, IIIIIIII AAAAAAAA,BBB,C,DDD,EEEE,FFFF, GGG, HIIII,JJJJ,KLLLL,MMMM, P </code></pre> 因此，接下来将这些函数应用于<code>.txt</code>，并使用输出创建一个<code>.csv</code>文件： <pre><code>from contextlib import ExitStack from tqdm.notebook import tqdm with ExitStack() as stack: read_file = stack.enter_context(open('data/bst_all.txt', 'r')) write_file = stack.enter_context(open('data/bst_all_clean.txt', 'a')) for line in tqdm(read_file.readlines()): if ' ' in line[:8]: # line is header data write_file.write(replace(line, header_idxs, ',') + '\n') else: # line is track data write_file.write(replace(line, track_idxs, ',') + '\n') </code></pre> 下一个任务是向所有行添加标题数据，以便所有行具有相同的格式： <pre><code>header_cols = ['indicator', 'international_id', 'n_tracks', 'cyclone_id', 'international_id_dup', 'final_flag', 'delta_t_fin', 'name', 'last_revision'] track_cols = ['date', 'indicator', 'grade', 'latitude', 'longitude', 'pressure', 'max_wind_speed', 'dir_long50', 'long50', 'short50', 'dir_long30', 'long30', 'short30', 'jp_landfall'] data = pd.read_csv('data/bst_all_clean.txt', names=track_cols, skipinitialspace=True) data.date = data.date.astype('string') # Get headers. Header rows have variable 'indicator' which is 5 characters long. headers = data[data.date.apply(len) <= 5] data[['storm_id', 'records', 'name']] = headers.iloc[:, [1, 2, 7]] # Rearrange columns; bring identifiers to the first three columns. cols = list(data.columns[-3:]) + list(data.columns[:-3]) data = data[cols] # front fill NaN's for header data data[['storm_id', 'records', 'name']] = data[['storm_id', 'records', 'name']].fillna(method='pad') # delete now extraneous header rows data = data.drop(headers.index) </code></pre> 这会产生一些格式良好的数据，如： <pre><code> storm_id records name date indicator grade latitude longitude 15 5102.0 37.0 GEORGIA 51031900 2 2 67.0 1614 16 5102.0 37.0 GEORGIA 51031906 2 2 70.0 1625 17 5102.0 37.0 GEORGIA 51031912 2 2 73.0 1635 </code></pre>

如何读取空格分隔的数据、两行类型、没有固定宽度和大量缺少的值？

1 个回答

相关Python问题