将属性相互匹配问题的回答

将属性相互匹配

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个类似的输入文件： <pre><code>RefID|FirstName|MiddleName|LastName|SSN|DOB|School Year|Age|District LEA|District Description|School LEA|Location Description|title|frng_amt 1|JULIE|A|ADAMS|123456789|654321|20142015|47|0101000|DEWITTSCHOOLDISTRICT|P|014 2|JULIE|A|ADAMS|123456789|654321|20132014|46|0101000|DEWITTSCHOOLDISTRICT|S|13100 3|JULIE|A|ADAMS|123456789|654321|20122013|45|0101000|DEWITTSCHOOLDISTRICT|P|014 4|JULIE|A|ADAMS|123456789|654321|20132014|46|0101000|DEWITTSCHOOLDISTRICT|P|014 5|JULIE|A|ADAMS|123456789|654321|20142015|47|0101000|DEWITTSCHOOLDISTRICT|S|15000 6|JULIE|A|ADAMS|123456789|654321|20122013|45|0101000|DEWITTSCHOOLDISTRICT|S|13100 7|SHIRLEY||ADAMS|987654321|987890|20122013|49|0101000|DEWITTSCHOOLDISTRICT|S|13100 8|SHIRLEY||ADAMS|987654321|987890|20092010|46|0101000|DEWITTSCHOOLDISTRICT|P|014 9|SHIRLEY||ADAMS|987654321|987890|20102011|47|0101000|DEWITTSCHOOLDISTRICT|P|014 10|SHIRLEY||ADAMS|987654321|987890|20132014|50|0101000|DEWITTSCHOOLDISTRICT|S|13100 11|SHIRLEY||ADAMS|987654321|987890|20132014|50|0101000|DEWITTSCHOOLDISTRICT|P|014 12|SHIRLEY||ADAMS|987654321|987890|20122013|49|0101000|DEWITTSCHOOLDISTRICT|P|014 13|SHIRLEY||ADAMS|987654321|987890|20102011|47|0101000|DEWITTSCHOOLDISTRICT|A|13100 14|SHIRLEY||ADAMS|987654321|987890|20142015|51|0101000|DEWITTSCHOOLDISTRICT|S|15000 15|SHIRLEY||ADAMS|987654321|987890|20092010|46|0101000|DEWITTSCHOOLDISTRICT|A|13100 16|SHIRLEY||ADAMS|987654321|987890|20142015|51|0101000|DEWITTSCHOOLDISTRICT|P|014 </code></pre> 我想执行数据匹配，在我的输出中，我想根据他们的SSN给Julie分配一个唯一的ID，给Shirley分配另一个唯一的ID。所以我的想法是： <pre><code>ID|RefID|FirstName|MiddleName|LastName|SSN|DOB|School Year|Age|District LEA|District Description|School LEA|Location Description|title|frng_amt 10001|1|JULIE|A|ADAMS|123456789|654321|20142015|47|0101000|DEWITTSCHOOLDISTRICT|P|014 10001|2|JULIE|A|ADAMS|123456789|654321|20132014|46|0101000|DEWITTSCHOOLDISTRICT|S|13100 10001|3|JULIE|A|ADAMS|123456789|654321|20122013|45|0101000|DEWITTSCHOOLDISTRICT|P|014 10001|4|JULIE|A|ADAMS|123456789|654321|20132014|46|0101000|DEWITTSCHOOLDISTRICT|P|014 10001|5|JULIE|A|ADAMS|123456789|654321|20142015|47|0101000|DEWITTSCHOOLDISTRICT|S|15000 10001|6|JULIE|A|ADAMS|123456789|654321|20122013|45|0101000|DEWITTSCHOOLDISTRICT|S|13100 10002|7|SHIRLEY||ADAMS|987654321|987890|20122013|49|0101000|DEWITTSCHOOLDISTRICT|S|13100 10002|8|SHIRLEY||ADAMS|987654321|987890|20092010|46|0101000|DEWITTSCHOOLDISTRICT|P|014 10002|9|SHIRLEY||ADAMS|987654321|987890|20102011|47|0101000|DEWITTSCHOOLDISTRICT|P|014 10002|10|SHIRLEY||ADAMS|987654321|987890|20132014|50|0101000|DEWITTSCHOOLDISTRICT|S|13100 10002|11|SHIRLEY||ADAMS|987654321|987890|20132014|50|0101000|DEWITTSCHOOLDISTRICT|P|014 10002|12|SHIRLEY||ADAMS|987654321|987890|20122013|49|0101000|DEWITTSCHOOLDISTRICT|P|014 10002|13|SHIRLEY||ADAMS|987654321|987890|20102011|47|0101000|DEWITTSCHOOLDISTRICT|A|13100 10002|14|SHIRLEY||ADAMS|987654321|987890|20142015|51|0101000|DEWITTSCHOOLDISTRICT|S|15000 10002|15|SHIRLEY||ADAMS|987654321|987890|20092010|46|0101000|DEWITTSCHOOLDISTRICT|A|13100 10002|16|SHIRLEY||ADAMS|987654321|987890|20142015|51|0101000|DEWITTSCHOOLDISTRICT|P|014 </code></pre> 如何在Python中实现这一点？我尝试通过创建输入文件的副本来使用if循环，但我觉得这是一种非常低效且错误的实现方法。有人能帮我想办法吗？你知道吗 我现在的代码： <pre><code>inputReader = open(inputFile,'r') inputReaderCopy = open(inputFile, 'r') outputWriter = open(outputFile, 'w') counter = 100000 headers = inputReader.readline() for x in inputReader: for y in inputReaderCopy: if x.split("|")[4] == y.split("|")[4]: outputWriter.write(str(counter) + "|" +y) counter+=1 else: outputWriter.write("no match|"+ y) </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

只需使用dict映射到每个SSN的唯一id来记录所看到的SSN，您只需要对行进行一次传递，并使用<a href="https://docs.python.org/3.4/library/csv.html" rel="nofollow">csv module</a>来解析将为您执行拆分的文件。如果您想要一个全新的文件： <pre><code>import csv cn = 10001 with open("test.txt") as f, open("out.txt","w") as tmp: r, wr = csv.reader(f, delimiter="|"), csv.writer(tmp, delimiter="|") head, d = next(r), {} wr.writerow(["ID"]+head) for row in r: v = row[4] # if we have already seen the SSN, use the id assigned if v in d: wr.writerow([d[v]] + row) else: # else create new id, add pairing to dict and write d[v] = cn wr.writerow([cn] + row) cn += 1 </code></pre> 输出： <pre><code>ID|RefID|FirstName|MiddleName|LastName|SSN|DOB|School Year|Age|District LEA|District Description|School LEA|Location Description|title|frng_amt 10001|1|JULIE|A|ADAMS|123456789|654321|20142015|47|0101000|DEWITTSCHOOLDISTRICT|P|014 10001|2|JULIE|A|ADAMS|123456789|654321|20132014|46|0101000|DEWITTSCHOOLDISTRICT|S|13100 10001|3|JULIE|A|ADAMS|123456789|654321|20122013|45|0101000|DEWITTSCHOOLDISTRICT|P|014 10001|4|JULIE|A|ADAMS|123456789|654321|20132014|46|0101000|DEWITTSCHOOLDISTRICT|P|014 10001|5|JULIE|A|ADAMS|123456789|654321|20142015|47|0101000|DEWITTSCHOOLDISTRICT|S|15000 10001|6|JULIE|A|ADAMS|123456789|654321|20122013|45|0101000|DEWITTSCHOOLDISTRICT|S|13100 10002|7|SHIRLEY||ADAMS|987654321|987890|20122013|49|0101000|DEWITTSCHOOLDISTRICT|S|13100 10002|8|SHIRLEY||ADAMS|987654321|987890|20092010|46|0101000|DEWITTSCHOOLDISTRICT|P|014 10002|9|SHIRLEY||ADAMS|987654321|987890|20102011|47|0101000|DEWITTSCHOOLDISTRICT|P|014 10002|10|SHIRLEY||ADAMS|987654321|987890|20132014|50|0101000|DEWITTSCHOOLDISTRICT|S|13100 10002|11|SHIRLEY||ADAMS|987654321|987890|20132014|50|0101000|DEWITTSCHOOLDISTRICT|P|014 10002|12|SHIRLEY||ADAMS|987654321|987890|20122013|49|0101000|DEWITTSCHOOLDISTRICT|P|014 10002|13|SHIRLEY||ADAMS|987654321|987890|20102011|47|0101000|DEWITTSCHOOLDISTRICT|A|13100 10002|14|SHIRLEY||ADAMS|987654321|987890|20142015|51|0101000|DEWITTSCHOOLDISTRICT|S|15000 10002|15|SHIRLEY||ADAMS|987654321|987890|20092010|46|0101000|DEWITTSCHOOLDISTRICT|A|13100 10002|16|SHIRLEY||ADAMS|987654321|987890|20142015|51|0101000|DEWITTSCHOOLDISTRICT|P|014 </code></pre> 如果要更新原始文件，可以写入tempfile并执行<code>shutil.move</code>： <pre><code>import csv from shutil import move from tempfile import NamedTemporaryFile import os cn = 100001 try: with open("test.txt") as f, NamedTemporaryFile("w", dir=".", delete=False) as tmp: r, wr = csv.reader(f, delimiter="|"), csv.writer(tmp, delimiter="|") head, d = next(r), {} wr.writerow(["ID"] + head) for row in r: v = row[4] if v in d: wr.writerow([d[v]] + row) else: d[v] = cn wr.writerow([cn] + row) cn += 1 # replace original file move(tmp.name, "test.txt")) finally: if os.path.isfile(tmp.name): os.unlink(tmp.name) </code></pre> 如果数据的顺序与输入的顺序相同，则可以<code>groupby</code>： <pre><code>import csv from itertools import groupby from operator import itemgetter cn = 10001 with open("test.txt") as f, open("out.txt", "w") as tmp: r, wr = csv.reader(f, delimiter="|"), csv.writer(tmp, delimiter="|") head, d = next(r), {} wr.writerow(["ID"] + head) for k, v in groupby(r, key=itemgetter(4)): wr.writerows([cn]+sub for sub in v) cn += 1 </code></pre>

将属性相互匹配

1 个回答

相关Python问题