基于列中的数据合并两个CSV文件问题的回答

基于列中的数据合并两个CSV文件

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有两个csv文件，如下所示。 CSV版 <pre><code>data13 data23 d main_data1;main_data2 data13 data23 data12 data22 d main_data1;main_data2 data12 data22 data11 data21 d main_data1;main_data2 data11 data21 data3 data4 d main_data2;main_data4 data3 data4 data52 data62 d main_data3 data51 data62 data51 data61 d main_data3 main_data3 data61 data7 data8 d main_data4 data7 data8 </code></pre> CSV2型 <pre><code>id1 main_data1 a1 a2 a3 id2 main_data2 b1 b2 b3 id3 main_data3 c1 c2 c3 id4 main_data4 d1 d2 d3 id5 main_data5 e1 e2 e3 </code></pre> 现在我的问题是，当两个文件中的一列完全相同时，我知道如何合并两个CSV文件。但我的问题有点不同。CSV1的第4列可能包含CSV2的第2列。我想得到一个CSV文件如下 最终的 <pre><code>id1 main_data1 a1 a2 a3 data13 id2 main_data2 b1 b2 b3 data3 id3 main_data3 c1 c2 c3 main_data3 id4 main_data4 d1 d2 d3 data7 id5 main_data5 e1 e2 e3 </code></pre> 其中： 1。它匹配来自两列的数据，并从第一个匹配项获取相应的行，然后写入csv文件。 2.如果没有匹配项，它可以将FINAL_CSV中的最后一列留空，或写“NA”或类似的任何内容。 3.当CSV1的第4列和第5列中的数据完全匹配时，它将返回该行而不是第一行。 我完全不知道该怎么做。帮我做一部分也很好。如有任何建议，我们将不胜感激。 PS-我知道csv文件中的数据应该用逗号分隔，但为了清晰起见，我更喜欢使用制表符，尽管实际数据是用逗号分隔的。 编辑：实际上，“主数据”可以在CSV2的任何列中，而不仅仅是在第2列中。同样的“main_data”也可以在多行中重复，然后我想得到所有对应的行。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

由于合并的条件似乎很复杂，因此将数据加载到数据库并使用SQL可能是值得的。在内存中使用SQLite可以这样做（假设数据是逗号分隔的） <pre><code>import csv import sqlite3 def createTable(cursor, rows, tablename): tableCreated = False for row in rows: if not tableCreated: sql = "CREATE TABLE %s(ROW INTEGER PRIMARY KEY, " + ", ".join(["c%d" % (i+1) for i in range(len(row))]) + ")" cur.execute(sql % tablename) tableCreated = True sql = "INSERT INTO %s VALUES(NULL, " + ", ".join(["'" + c + "'" for c in row]) + ")" cur.execute(sql % tablename) conn.commit() conn = sqlite3.connect(":memory:") cur = conn.cursor() for filename, tablename in [(path_to_csv1, "CSV1"), (path_to_csv2, "CSV2")]: with open(filename, "r") as f: reader = csv.reader(f, delimiter=',') rows = [row for row in reader] createTable(cur, rows, tablename) </code></pre> 然后可以在SQL中构造连接逻辑。您可以运行以下查询： <pre><code>for row in cur.execute(your_sql_statement): print row </code></pre> 以下查询提供所需的输出： <pre><code>WITH MATCHES AS( -- get all matches SELECT CSV2.* , CSV1.ROW as ROW_1 , CSV1.C4 as C4_1 , CSV1.C5 as C5_1 FROM CSV2 LEFT JOIN CSV1 ON CSV1.C4 LIKE '%' || CSV2.C2 || '%' ), EXACT AS( -- matches where CSV1.C4 = CSV1.C5 SELECT * FROM MATCHES WHERE C4_1 = C5_1 ), MIN_ROW AS( -- CSV1.ROW of first occurence for each CSV2.C1 SELECT C1 , min(ROW_1) as ROW_1 FROM MATCHES WHERE C1 NOT IN (SELECT C1 FROM EXACT) GROUP BY C1, C2, C3, C4, C5 ) -- use C4=C5 first SELECT * FROM EXACT UNION -- if match not in exact, use first occurence SELECT MATCHES.* FROM MIN_ROW INNER JOIN MATCHES ON MIN_ROW.C1 = MATCHES.C1 AND (MIN_ROW.ROW_1 = MATCHES.ROW_1 OR MIN_ROW.ROW_1 IS NULL) ORDER BY C1 </code></pre>

基于列中的数据合并两个CSV文件

1 个回答

相关Python问题