我有两个大文件数据集:
File1:
Gen1 1 1 10
Gen2 1 2 20
Gen3 2 30 40
File2:
A 1 4
B 1 15
C 2 2
预期产量:
Out:
Gen1 1 1 10 A 1 4
Gen2 1 2 20 B 1 15
现在我有了一些代码,它基本上只是试图找到文件2在文件1中的实例,如果文件2[1]与文件1[1]匹配并且在文件1中的范围之内
我的代码如下:
for i in file1:
temp = i.split()
for a in file2:
temp2 = a.split()
if temp[1] == temp2[1] and temp2[2] >= temp[2] and temp2[2] <= temp[3]
print(i + " " + a + "\n")
else:
continue
代码是有效的,但我觉得它需要的时间比它应该要长得多。有没有更简单的方法?我觉得有一些聪明的map或hash的用法我没有做
谢谢你
熊猫可能是个不错的选择。参见this示例
当文件很大时,我更喜欢sqlite而不是pandas。可以从sqlite DB加载数据帧
输出:
相关问题 更多 >
编程相关推荐