擅长:python、mysql、java
<p>这将打开包含原始代码的文件,以及输出每个组的唯一行的新文件。你知道吗</p>
<p><code>seen</code>是一个<code>set</code>并且非常适合于查看其中是否已经存在某些东西。你知道吗</p>
<p><code>data</code>是<code>list</code>并将跟踪<code>"=Cluster="</code>组的迭代。你知道吗</p>
<p>然后您只需查看每个组的每一行(在<code>data</code>中指定为<code>i</code>)。你知道吗</p>
<p>如果<code>seen</code>中不存在该行,则添加该行。你知道吗</p>
<pre><code>with open ("input file", 'r') as in_file, open("output file", 'w') as out_file:
data = [k.rstrip().split("=Cluster=") for k in in_file]
for i in data:
seen = set()
for line in i:
if line in seen:
continue
seen.add(line)
out_file.write(line)
</code></pre>
<p><strong>编辑</strong>:将<code>seen=set()</code>移动到<code>for i in data</code>内,以便每次重置集合,否则<code>"=Cluster="</code>将始终存在,并且不会为<code>data</code>内的每个组打印。你知道吗</p>