读取Pandas中的csv文件时出错[cparserror:标记数据时出错。C错误：捕获到缓冲区溢出-可能是输入文件格式不正确。]

import pandas as pd import numpy as np import glob path =r'somePath' # use your path allFiles = glob.glob(path + "/*.csv") frame = pd.DataFrame() list_ = [] for file_ in allFiles: df = pd.read_csv(file_,index_col=None, header=0) list_.append(df) store = pd.concat(list_) store.to_csv("C:\work\DATA\Raw_data\\store.csv", sep=',', index= False) store1 = pd.read_csv("C:\work\DATA\Raw_data\\store.csv", sep=',')

CParserError Traceback (most recent call last) <ipython-input-48-2983d97ccca6> in <module>() ----> 1 store1 = pd.read_csv("C:\work\DATA\Raw_data\\store.csv", sep=',') C:\Users\armsharm\AppData\Local\Continuum\Anaconda\lib\site-packages\pandas\io\parsers.pyc in parser_f(filepath_or_buffer, sep, dialect, compression, doublequote, escapechar, quotechar, quoting, skipinitialspace, lineterminator, header, index_col, names, prefix, skiprows, skipfooter, skip_footer, na_values, na_fvalues, true_values, false_values, delimiter, converters, dtype, usecols, engine, delim_whitespace, as_recarray, na_filter, compact_ints, use_unsigned, low_memory, buffer_lines, warn_bad_lines, error_bad_lines, keep_default_na, thousands, comment, decimal, parse_dates, keep_date_col, dayfirst, date_parser, memory_map, float_precision, nrows, iterator, chunksize, verbose, encoding, squeeze, mangle_dupe_cols, tupleize_cols, infer_datetime_format, skip_blank_lines) 472 skip_blank_lines=skip_blank_lines) 473 --> 474 return _read(filepath_or_buffer, kwds) 475 476 parser_f.__name__ = name C:\Users\armsharm\AppData\Local\Continuum\Anaconda\lib\site-packages\pandas\io\parsers.pyc in _read(filepath_or_buffer, kwds) 258 return parser 259 --> 260 return parser.read() 261 262 _parser_defaults = { C:\Users\armsharm\AppData\Local\Continuum\Anaconda\lib\site-packages\pandas\io\parsers.pyc in read(self, nrows) 719 raise ValueError('skip_footer not supported for iteration') 720 --> 721 ret = self._engine.read(nrows) 722 723 if self.options.get('as_recarray'): C:\Users\armsharm\AppData\Local\Continuum\Anaconda\lib\site-packages\pandas\io\parsers.pyc in read(self, nrows) 1168 1169 try: -> 1170 data = self._reader.read(nrows) 1171 except StopIteration: 1172 if nrows is None: pandas\parser.pyx in pandas.parser.TextReader.read (pandas\parser.c:7544)() pandas\parser.pyx in pandas.parser.TextReader._read_low_memory (pandas\parser.c:7784)() pandas\parser.pyx in pandas.parser.TextReader._read_rows (pandas\parser.c:8401)() pandas\parser.pyx in pandas.parser.TextReader._tokenize_rows (pandas\parser.c:8275)() pandas\parser.pyx in pandas.parser.raise_parser_error (pandas\parser.c:20691)() CParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.

Error Traceback (most recent call last) <ipython-input-36-9249469f31a6> in <module>() 1 with open('C:\work\DATA\Raw_data\\store.csv', 'rb') as f: 2 reader = csv.reader(f) ----> 3 l = list(reader) Error: new-line character seen in unquoted field - do you need to open the file in universal-newline mode?

3条回答

网友

1楼 · 编辑于 2024-09-25 04:20:34

不是一个答案，但是对于注释来说太长了（不是说代码格式）

当您在csv模块中读取它时，它断开，您至少可以找到发生错误的行：

import csv
with open(r"C:\work\DATA\Raw_data\store.csv", 'rb') as f:
    reader = csv.reader(f)
    linenumber = 1
    try:
        for row in reader:
            linenumber += 1
    except Exception as e:
        print (("Error line %d: %s %s" % (linenumber, str(type(e)), e.message)))

然后在store.csv中查看该行发生了什么。

网友

2楼 · 编辑于 2024-09-25 04:20:34

如果您使用的是python及其大文件，则可以使用 engine='python'如下，应该可以工作。

df = pd.read_csv( file_, index_col=None, header=0, engine='python' )

网友

3楼 · 编辑于 2024-09-25 04:20:34

我发现这个错误，原因是pandas用作行结束符的数据中有一些回车符“\r”，就好像它是“\n”。我想我应该在这里发帖，因为这可能是出现这个错误的常见原因。

我找到的解决方案是将lineterminator='\n'添加到read-csv函数中，如下所示：

df_clean = pd.read_csv('test_error.csv',
                 lineterminator='\n')

相关问题更多 >

编程相关推荐

热门问题

热门文章