仅导入PostgreUnique记录

import csv import psycopg2 database = psycopg2.connect (database = "***", user="***") cursor = database.cursor() delete = """Drop table if exists "Real".Noduplicates""" print (delete) mydata = cursor.execute(delete) cursor.execute("""Create Table "Real".Noduplicates (UserName varchar(55), LastUpdate timestamp, Week date, Builder varchar(55), Traffic integer );""") print "Table created successfully" csv_data = csv.reader(file('SampleData2.csv')) already_seen = set() next(csv_data) for row in csv_data: builder = row[3] if builder in already_seen: print('{} is a duplicate builder'.format(builder)) else: print('{} is a new builder'.format(builder)) already_seen.add(builder) for row in csv_data: cursor.execute("""INSERT INTO "Real".Noduplicates (UserName, LastUpdate, Week, Builder, Traffic)"""\ """VALUES (%s,%s,%s,%s,%s)""", row) cursor.close() database.commit() database.close() print "CSV Imported"

1条回答

网友

1楼 · 发布于 2024-09-28 23:46:39

相反，使用COPY（速度更快）将所有行导入到临时表中，然后使用SELECT DISTINCT ...或SELECT DISTINCT ON (builder)或使用聚合函数，INSERT将所有行导入临时表。查找副本是任何RDBMS的长处。在

相关代码示例：

或，在逐个插入行时，Postgres 9.5中的新UPSERT和所有5列的UNIQUE索引就是您所需要的：

INSERT into a table from SELECT only if value doesn't exist

但是请注意NULL值的特殊作用（在SQL中，这些值从来没有被认为是相等的）：

Allow null in unique column

如果列builder是标识重复项所需的全部内容，只需定义该列UNIQUE：

...
builder varchar(55) UNIQUE NOT NULL,
...

并使用简单的UPSERT：

^{pr2}$

最好不要在Postgres中使用CaMelCase名称顺便说一句：

Are PostgreSQL column names case-sensitive?

相关问题更多 >

编程相关推荐

热门问题

热门文章