Python中文
首页
教程
问答
标签
搜索
登录
注册
比较python中两个巨大csv文件的最快方法(numpy)
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试在两个相当大的csv文件之间找到intesect子集 电话号码(一个有60万行,另一个有30万行)。我目前使用pandas打开这两个文件,然后将所需的列转换为1d numpy数组,然后使用numpiintersect获得交集。有没有更好的方法可以做到这一点,无论是使用python还是其他方法。谢谢你的帮助</p> <pre><code>import pandas as pd import numpy as np df_dnc = pd.read_csv('dncTest.csv', names = ['phone']) df_test = pd.read_csv('phoneTest.csv', names = ['phone']) dnc_phone = df_dnc['phone'] test_phone = df_test['phone'] np.intersect1d(dnc_phone, test_phone) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<ol> <li>将60万个电话号码读入<code>set</code>。在</li> <li>逐行输入较大的文件,对照集合检查每一行。在</li> <li>立即将匹配项写入输出文件。在</li> </ol> <p>这样你就不必一次将所有数据加载到内存中。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
区分轴上的像素大小
6 回答
区分过度拟合与良好预测
4 回答
区分通过POST接收的数据并在Cherrypy中获取
2 回答
区分重写和重载
1 回答
区分金贾二号的类型
10 回答
区别:IF IN和IF==python
1 回答
区别:list.append()与incrementequal?
3 回答
区别:创建在启动wx应用程序时不“阻止”控制台的脚本
9 回答
区别于python中的命令行和CGI
10 回答
区别关系
5 回答
区别是什么APIClient.enforce\ csrf\检查以及APIClient.handler.enforce\ csrf\ u检查
10 回答
区块.draw()未在python空闲模式下工作
6 回答
区块链API调用输出对象名称而不是内容
1 回答
区块链nonce值随负载变化
8 回答
区块链Python语法错误(Snakecoin)
1 回答
区块链不连接到服务器和矿工
8 回答
区块链信息钱包支票支付员
1 回答
区块链和区块链密码错误
10 回答
区块链尝试向Transaction字典添加键/值以创建区块链
8 回答
区域:IOError:[Errno 22]无效模式('w')或filenam
9 回答