Python/Pandas - 导入CSV时出现奇怪的错误

2024-10-03 02:42:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个csv,它的行是这样的:

CNPJ                Razao social                Nome fantasia      Endereco Cidade  Estado  Telefone    Email   Natureza juridica   Atividade primaria  Atividades secundarias  Data de fundacao    Situacao cadastral  Socios e administradores    Capital Social
02.787.185/0001-51  PEREIRA & POHREN LTDA - ME  ESSENCIA FARMACIA DE MANIPULACAO    R DR. LUIZ BASTOS DO PRADO, 1610, CENTRO    GRAVATAI    RS  5134881010      206-2 - SOCIEDADE EMPRESARIA LIMITADA   47.71-7-02 - Comércio varejista de produtos farmacêuticos, com manipulação de fórmulas 47.72-5-00 - Comércio varejista de cosméticos, produtos de perfumaria e de higiene pessoal|47.73-3-00 - Comércio varejista de artigos médicos e ortopédicos|47.71-7-04 - Comércio varejista de medicamentos veterinários 1998-10-09  ATIVA   JOSE ANTONIO POHREN - Sócio-Administrador | SABRINA FRANCISCO PEREIRA - Sócio-Administrador

(请取消标题格式,我无法在stackoverflow上调整它,如果我尝试调整,它会变得很混乱)

每列用制表符分隔。如果我在Excel上打开它,它工作得很好,它看起来应该是这样的,与上面的例子完全相同。你知道吗

我使用此代码将其导入熊猫:

df=pd.read_csv("/file.csv",sep='\t')

它读取文件,但有些行变得奇怪。例如,我发现一行写着“R DR.LUIZ BASTOS DO PRADO”(你可以在上面的行中看到)。从技术上讲,它应该看起来与上面完全相同,但它看起来是这样的:

CNPJ                                              NaN
Razao social                R DR LUIZ BASTOS DO PRADO
Nome fantasia                                     NaN
Endereco                                          NaN
Cidade                                            NaN
Estado                                            NaN
Telefone                                          NaN
Email                                             NaN
Natureza juridica                                 NaN
Atividade primaria                                NaN
Atividades secundarias                            NaN
Data de fundacao                                  NaN
Situacao cadastral                                NaN
Socios e administradores                          NaN
Capital Social                                    NaN
Name: 291, dtype: object

我注意到,pandas似乎在没有完成所有列的行中感到困惑。你知道吗

我还注意到这个“R DR.LUIZ BASTOS DO PRADO”应该在第220行,而不是第291行。291应该是完全不同的东西。你知道吗

我经常使用read\csv,我从未见过这种问题。 有人知道这里会发生什么吗?你知道吗


Tags: csvcomsocialdenandodrnome