忽略中的错误数据行Pandas.read_csv（）that break header=关键字

Instrument 35392 "Log File Name : station" "Setup Date (MMDDYY) : 031114" "Setup Time (HHMMSS) : 073648" "Starting Date (MMDDYY) : 031114" "Starting Time (HHMMSS) : 090000" "Stopping Date (MMDDYY) : 031115" "Stopping Time (HHMMSS) : 235959" "Interval (HHMMSS) : 010000" "Sensor warmup (HHMMSS) : 000200" "Circltr warmup (HHMMSS) : 000200" "Date","Time","","Temp","","SpCond","","Sal","","IBatt","" "MMDDYY","HHMMSS","","øC","","mS/cm","","ppt","","Volts","" "Random message here 031114 073721 to 031114 083200" 03/11/14,09:00:00,"",15.85,"",1.408,"",.74,"",6.2,"" 03/11/14,10:00:00,"",15.99,"",1.96,"",1.05,"",6.3,"" 03/11/14,11:00:00,"",14.2,"",40.8,"",26.12,"",6.2,"" 03/11/14,12:00:01,"",14.2,"",41.7,"",26.77,"",6.2,"" 03/11/14,13:00:00,"",14.5,"",41.3,"",26.52,"",6.2,"" 03/11/14,14:00:00,"",14.96,"",41,"",26.29,"",6.2,"" "message 3" "message 4"**

*C:\Users\USER\AppData\Local\Continuum\Anaconda3\lib\site- packages\pandas\io\parsers.py in _do_date_conversions(self, names, data) 1554 data, names = _process_date_conversion( 1555 data, self._date_conv, self.parse_dates, self.index_col, -> 1556 self.index_names, names, keep_date_col=self.keep_date_col) 1557 1558 return names, data C:\Users\USER\AppData\Local\Continuum\Anaconda3\lib\site- packages\pandas\io\parsers.py in _process_date_conversion(data_dict, converter, parse_spec, index_col, index_names, columns, keep_date_col) 2975 if not keep_date_col: 2976 for c in list(date_cols): -> 2977 data_dict.pop(c) 2978 new_cols.remove(c) 2979 KeyError: ('Time', 'HHMMSS')*

2条回答

网友

1楼 · 编辑于 2024-09-27 23:21:56

昨天经过一番修修补补，我找到了一个解决方案，以及可能存在的问题。在

我尝试了上面的skip_test（）函数答案，但是我仍然得到表格大小的错误：

pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader.read (pandas\_libs\parsers.c:10862)()

pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory (pandas\_libs\parsers.c:11138)()

pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader._read_rows (pandas\_libs\parsers.c:11884)()

pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader._tokenize_rows (pandas\_libs\parsers.c:11755)()

pandas\_libs\parsers.pyx in pandas._libs.parsers.raise_parser_error (pandas\_libs\parsers.c:28765)()

ParserError: Error tokenizing data. C error: Expected 1 fields in line 14, saw 11

所以，在玩了skiprows=之后，我发现我在使用引擎时并没有得到想要的行为。read_csv（）仍在根据前几行确定文件的大小，其中一些单列行仍在传递。可能是我的csv集中还有一些我没有计划好的单列行。在

相反，我创建了一个任意大小的数据帧作为模板。我拉入整个.csv文件，然后使用逻辑将NaN行剥离出来。在

例如，我知道我将遇到的数据最大的表将是10行长。所以我对熊猫的呼吁是：

^{pr2}$
然后我使用这两行从数据帧中删除NaN行和列：
#drop the null columns created by double deliminators DF = DF.dropna(how="all", axis=1) DF = DF.dropna(thresh=2) # drop if we don't have at least 2 cells with real values

网友
2楼 · 编辑于 2024-09-27 23:21:56

这里有一种方法，利用skip_rows接受可调用函数这一事实。函数只接收正在考虑的行索引，这是该参数的一个内置限制。在
因此，可调用函数skip_test()首先检查当前索引是否在要跳过的已知索引集中。如果不匹配，则打开实际文件并检查相应的行以查看其内容是否匹配。在
skip_test()函数在检查实际文件的意义上有点粗糙，尽管它只检查当前的行索引。它还假设坏行总是以同一个字符串开头（在示例中，"foo"），但这似乎是一个安全的假设
# example data """ foo.csv uid,a,b,c 0,1,2,3 skip me 1,11,22,33 foo 2,111,222,333 """ import pandas as pd def skip_test(r, fn, fail_on, known): if r in known: # we know we always want to skip these return True # check if row index matches problem line in file # for efficiency, quit after we pass row index in file f = open(fn, "r") data = f.read() for i, line in enumerate(data.splitlines()): if (i == r) & line.startswith(fail_on): return True elif i > r: break return False fname = "foo.csv" fail_str = "foo" known_skip = [2] pd.read_csv(fname, sep=",", header=0, skiprows=lambda x: skip_test(x, fname, fail_str, known_skip)) # output uid a b c 0 0 1 2 3 1 1 11 22 33 2 2 111 222 333
如果您确切地知道随机消息出现在哪一行，那么这将快得多，因为您可以告诉它不要检查文件内容中是否有超过潜在违规行的索引。在

相关问题更多 >

编程相关推荐

热门问题

热门文章