Python中文
首页
教程
问答
标签
搜索
登录
注册
根据每行的第一个标记比较两个大文件的最佳方法是什么?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有两个大文件(每个大约500k行或85mb)包含文件和文件路径本身的校验和。基于校验和获得文件之间差异的最佳方法是什么?我可以编写Java程序、脚本等,但目标是它必须高效。你知道吗</p> <p>例如,我有<strong>文件a:</strong></p> <pre><code>ec7a063d3990cf7d8481952ffb45f1d8b490b1b5 /home/user/first.txt e0f886f2124804b87a81defdc38ad2b492458f34 /home/user/second.txt </code></pre> <p><strong>文件B:</strong></p> <pre><code>650bc1eb1b24604819eb342f2ebc1bab464d9210 /home/user/third.txt ec7a063d3990cf7d8481952ffb45f1d8b490b1b5 /home/user/blah/dup.txt </code></pre> <p>我想输出两个包含文件A和B中唯一文件的文件</p> <p>唯一</p> <pre><code>e0f886f2124804b87a81defdc38ad2b492458f34 /home/user/second.txt </code></pre> <p>独一无二的</p> <pre><code>650bc1eb1b24604819eb342f2ebc1bab464d9210 /home/user/third.txt </code></pre> <p>在这种情况下第一.txt“和”dup.txt文件“是相同的,因为它们的校验和是相同的,所以我排除它,因为它不是唯一的。最有效的方法是什么?文件没有按任何方式排序。你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>使用<code>sort</code>对每个文件进行排序,然后将结果与<code>comm</code>进行比较。这两个命令的用法在namesake手册页面中有说明。你知道吗</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
8 回答
如何添加表示整数的擦边字符串?
5 回答
如何添加要在Bokeh中使用的新font.ttf文件?
8 回答
如何添加要显示的矩阵XY轴编号和XY轴
8 回答
如何添加计数?
1 回答
如何添加计数器函数?
10 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
9 回答
如何添加计数器来跟踪while循环中的月份和年份?
10 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
10 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
10 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
5 回答
如何添加评论拉梅尔亚姆
9 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
2 回答
如何添加谷歌地点自动完成到Flask?
2 回答
如何添加超时、python discord bot
4 回答
如何添加超过1dp的检查
3 回答
如何添加距离方法
2 回答
如何添加跟随游戏的敌人精灵
1 回答
如何添加路径以便python可以找到程序?
3 回答
如何添加身份验证/安全性以使用happybase访问HBase?
2 回答