Python中文
首页
教程
问答
标签
搜索
登录
注册
如何解析一堆大的文本文件(每个100Gb)?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有30个非常大的文本文件,其中有两列(domain | ip),其中有很多重复的记录。我最终想要的是每个ip唯一的域。以下是文件的外观:</p> <pre><code>man.bia.com|23.45.33.3 to.biaa.co.uk|23.45.33.3 man.bia.com|23.45.33.3 yahoo.com|34.55.44.2 yahoo.com|56.55.37.67 </code></pre> <p>我已经尝试过类似sqlite的解决方案,但这并不合适,因为解析每个文件都要花费很多时间。 <a href="https://stackoverflow.com/questions/26503199/how-to-parse-files-larger-than-100gb-in-python?noredirect=1#comment41640994_26503199">How to parse files larger than 100GB in Python?</a></p> <p>有人对在有限的时间内用有限的内存解析这么大的数据集有什么建议吗?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>如果你这么做的话</p> <pre><code>sort -t'|' -k2 -k1,1 files </code></pre> <p>后面是这个python代码</p> ^{pr2}$ <p>这只是浏览你的有序文件,然后写一次每个ip,然后写一个域,如果只有一个域,或者多个域,如果有重复,内存占用是最小的。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
在python3中使用Scipy pearsonr函数
4 回答
在Python3中使用scipy对多个lorentzian进行数据拟合
2 回答
在Python3中使用Script=argv
8 回答
在python3中使用selenium webdriver进行未解析的回溯
10 回答
在python3中使用selenium和phantomjs的网页截图之前如何等待?
10 回答
在Python3中使用Selenium和Requests模块从网页获取文件
8 回答
在python3中使用SIGINT终止函数
6 回答
在Python3中使用SIGTERM时,允许进程完成而不是中断
2 回答
在python3中使用smtplib发送XML内容
7 回答
在python3中使用socket库(RFCOMM模式)重新连接蓝牙设备?
1 回答
在python3中使用sounddevice和numpy编写wav文件
8 回答
在python3中使用Sqlalchemy插入MySQL查找类型错误的原因
7 回答
在python3中使用sqlite、pandas和sqlalchemy很难让rollback工作
2 回答
在python3中使用SQLite的FTS3/4
8 回答
在Python3中使用struct.calcsize()和len()有区别吗?
10 回答
在python3中使用substring函数时发生TypeError
5 回答
在Python3中使用Tkinter entry小部件写入串行设备
4 回答
在python3中使用tkinter时,如何在每次按下函数时获得运行该函数的按钮?
8 回答
在python3中使用tkinter的子帧
10 回答
在Python3中使用tryexcept块时,如何避免使用未初始化的变量?
1 回答