Python中文
首页
教程
问答
标签
搜索
登录
注册
使用约束计算文件中的重复对
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p><strong>问题陈述</strong></p> <p>我有以下文件(文件按所有三列排序):</p> <pre><code>D000001 D000001 1975 D000001 D000001 1976 D000001 D002413 1976 D000001 D002413 1979 D000001 D002413 1987 D000001 D004298 1976 D000002 D000002 1985 D000003 D000900 1975 D000003 D000900 1990 D000003 D004134 1983 D000003 D004134 1986 </code></pre> <p>我需要计算重复对(在第1列和第2列中),并为每对这样的对分配第3列中的最小值。对于我的玩具文件,输出应该是:</p> ^{pr2}$ <p><strong>我的问题</strong></p> <ol> <li>文件是巨大的(1 GB到5 GB),我想知道在这种设置中实现最合适的编程结构是什么?在</li> <li>如何正确打印最后一列(第三列)?在当前设置中(检查下面的代码),程序将打印最后(最高)值。在</li> </ol> <p>我对电流输出的初步尝试如下。在</p> ^{3}$ <p>电流输出:</p> <pre><code>D000001 D000001 (2, 1976) ## Should be 1976 etc. D000001 D002413 (3, 1987) D000001 D004298 (1, 1976) D000002 D000002 (1, 1985) D000003 D000900 (2, 1990) D000003 D004134 (2, 1986) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>由于文件很大,不应使用内存字典来管理数据。开始读取源文件并将结果直接输出到目标文件,您只需要3个变量</p> <p>一个存储当前元组,第二个存储计数,第三个存储最高值。当元组更改时,将值写入输出文件并继续。在</p> <p>这一个将有非常小的内存占用和可以处理疯狂的大文件以及。但当然,这只会因为元组是排序的。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
1 回答
如何添加表示整数的擦边字符串?
1 回答
如何添加要在Bokeh中使用的新font.ttf文件?
10 回答
如何添加要显示的矩阵XY轴编号和XY轴
10 回答
如何添加计数?
10 回答
如何添加计数器函数?
1 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
5 回答
如何添加计数器来跟踪while循环中的月份和年份?
5 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
6 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
4 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
7 回答
如何添加评论拉梅尔亚姆
3 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
8 回答
如何添加谷歌地点自动完成到Flask?
9 回答
如何添加超时、python discord bot
5 回答
如何添加超过1dp的检查
5 回答
如何添加距离方法
9 回答
如何添加跟随游戏的敌人精灵
2 回答
如何添加路径以便python可以找到程序?
2 回答
如何添加身份验证/安全性以使用happybase访问HBase?
8 回答