Python：连接两个非常大（20+GB）数据集的最有效方法？

2条回答

网友

1楼 · 编辑于 2024-09-27 21:26:23

sort -o df_ns.csv df_ns.csv && \
sort -o df_ip.csv df_ip.csv && \
join -t'|' df_ns.csv df_ip.csv > df_combined.csv

参考号：http://linux.die.net/man/1/join

网友

2楼 · 编辑于 2024-09-27 21:26:23

按你的第一列数据排序。之后，您就不需要将数据存储在内存中，只需使用如下两个迭代器：

import csv, sys
it1 = (csv.reader(open("df_ns", "r")))
it2 = (csv.reader(open("df_ip", "r")))
# skip the headers
it1.next()
it2.next()
try:
    dm1, ns = it1.next() # first row
except StopIteration:
    sys.exit(0)
try:
    dm2, ip = it2.next()
except StopIteration:
    sys.exit(0)
while True:
    if dm1 == dm2:
        print dm1, ns, ip
    if dm1 < dm2:
        try:
            dm1, ns = it1.next()
        except StopIteration:
            break
        continue
    try: 
        dm2, ip = it2.next()
    except StopIteration:
        break

编程相关推荐

JavaSpringBootHibernate5忽略@Table和@Column
java readLine是如何工作的？
java除了Oracle的JVM（windows）之外，还有什么BSD许可的替代方案吗？
javascript处理程序执行导致异常：所需的MultipartFile参数“file”不存在
java如何检查url是否与标识符匹配？
java在对象创建之后实现一个接口
java安卓：如何将github库放入项目中
java如何制作自定义文本组件？
如何在java中更新属性文件
java Hibernate持久映射

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python：连接两个非常大（20+GB）数据集的最有效方法？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >