R中的数据重组问题的回答

R中的数据重组

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有几个这样的CSV文件： <pre><code>site,run,id,payload,dir 1,1,1,528,1 1,1,1,540,2 1,1,3,532,1 # ... thousands more rows ... </code></pre> （在我正在处理的实际案例中，共有三个文件，共1408378行。）为了打印，我想将它们重新排列为以下格式： ^{pr2}$ 其中“label”来自CSV文件的名称；“stream”是分配给一个文件中“site”、“run”和“id”的每个组合的序列号（因此，仅在“label”中是唯一的）；“i”是每个“stream”中的行号；“dir”和“payload”直接取自原始文件。我还想丢弃每个流的前20行以外的所有行。我预先知道CSV文件中的每个单元格（除了头）都是一个正整数，'dir'只接受值1和2。在 我用<code>plyr</code>终止了我最初的尝试，因为经过一个多小时的计算，它已经运行了高达6GB工作集的R进程，而且看不到尽头。在最新的<code>plyr</code>中，对<code>foreach</code>并行性的新支持并没有起到任何作用：8个进程每个运行10分钟的CPU时间，然后它又回到一个进程，又持续了一个小时，是的，我的RAM再次崩溃。在 因此，我用Python编写了一个助手脚本，用它我更加流利： <pre><code>import sys def processOne(fname): clusters = {} nextCluster = 1 with open(fname + ".csv", "r") as f: for line in f: line = line.strip() if line == "site,run,id,payload,dir": continue (site, run, id, payload, dir) = line.split(',') clind = ",".join((site,run,id)) clust = clusters.setdefault(clind, { "i":nextCluster, "1":0, "2":0 }) if clust["i"] == nextCluster: nextCluster += 1 clust[dir] += 1 if clust[dir] > 20: continue sys.stdout.write("{label},{i},{dir},{j},{payload}\n" .format(label=fname, i=clust["i"], dir=dir, j=clust[dir], payload=payload)) sys.stdout.write("label,stream,dir,i,payload\n") for fn in sys.argv[1:]: processOne(fn) </code></pre> 并从R脚本调用它： <pre><code>all <- read.csv(pipe("python preprocess.py A B C", open="r")) </code></pre> 五秒钟内完成。在 所以问题是：在R中，正确的方法是什么？不是这个具体的任务，而是这类问题。在分析数据之前，我几乎总是需要在一堆数据中进行混乱处理，而用其他语言编写代码和计算机执行代码几乎总是比较容易。这让我觉得我只使用R作为<code>ggplot2</code>的接口，如果我学习<code>matplotlib</code>，也许从长远来看我可以节省自己的时间。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

R中的数据重组

1 个回答

相关Python问题