Python中文
首页
教程
问答
标签
搜索
登录
注册
Pandas.read_csv()忽略包含较少字段的错误行/行。文本文件
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试阅读这个巨大的文本文件:<a href="https://www.dropbox.com/s/3ikikw8bxde6y1i/TCAD_SPECIAL%20EXPORT_2019_20200409.zip?dl=0" rel="nofollow noreferrer">https://www.dropbox.com/s/3ikikw8bxde6y1i/TCAD_SPECIAL%20EXPORT_2019_20200409.zip?dl=0</a>(如果你下载zip,这个文件是Special_ARB.txt(对于我的问题不是必需的)</p> <p>我正在运行这段代码(添加<code>error_bad_lines=False</code>)以忽略包含超出预期字段的行,这很好:</p> <pre><code>pd.read_csv(r'~/Special_ARB.txt', sep="|", header=None,encoding='cp1252',error_bad_lines=False) </code></pre> <p>问题是<code>read.csv()</code>在一行只有1个字段时崩溃。错误如下:</p> <blockquote> <p>Too many columns specified: expected 77 and found 1</p> </blockquote> <p>有没有办法告诉python/pandas忽略这个错误?它不会让我知道它是哪一行。有超过一百万行,所以我无法自己找到它</p> <ul> <li>我尝试了一个for循环来逐行读取数据并从中找出答案,但数据太大,python崩溃了</li> <li>列的数量是77,熊猫在运行代码时可以正确识别,我认为这不是问题</li> </ul> <p>谢谢</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>这应该适用于内存中的数据集,您可以在大型数据集上使用分块解决方案:<a href="https://stackoverflow.com/a/59331754/9379924">https://stackoverflow.com/a/59331754/9379924</a></p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
无法使用Django/mongoengine连接到MongoDB(身份验证失败)
6 回答
无法使用Django\u mssql\u后端迁移到外部hos
5 回答
无法使用Django&Python3.4连接到MySql
6 回答
无法使用Django+nginx上载媒体文件
4 回答
无法使用Django1.6导入名称模式
5 回答
无法使用Django1.7和mongodb登录管理站点
1 回答
无法使用Djangoadmin创建项目,进程使用了错误的路径,因为我事先安装了错误的Python
9 回答
无法使用Djangockedi验证CBV中的字段
9 回答
无法使用Djangocketditor上载图像(错误400)
5 回答
无法使用Djangocron进行函数调用
9 回答
无法使用Djangofiler djang上载文件
2 回答
无法使用Djangokronos
10 回答
无法使用Djangomssql provid
8 回答
无法使用Djangomssql连接到带有Django 1.11的MS SQL Server 2016
9 回答
无法使用Djangomssq迁移Django数据库
3 回答
无法使用Djangonox创建用户
3 回答
无法使用Djangopyodb从Django查询SQL Server
3 回答
无法使用Djangopython3ldap连接到ldap
10 回答
无法使用Djangoredis连接到redis
7 回答
无法使用Django中的FK创建新表
10 回答