Python pickling/multiprocessing和Tableau数据提取API的问题

from sys import argv import os, csv, datetime, time import dataextract as tde csv.field_size_limit(10000000) ## Functions # This function makes adding the columns to each row in the extract a bit easier. def add_tde_col(colnum, row, val, t): # Date format used below dateformat = '%Y-%mm-%dd %H:%M:%S.%f' if t == tdeTypes['INTEGER']: try: convert = int(val) row.setInteger(colnum, convert) except ValueError: #if we bomb the cast then we just add a null row.setNull(colnum) elif t == tdeTypes['DOUBLE']: try: convert = float(val) row.setDouble(colnum, convert) except ValueError: row.setNull(colnum) elif t == tdeTypes['BOOLEAN']: try: convert = int(val) if convert > -1 and convert <= 1: row.setBoolean(colnum, convert) else: row.setNull(colnum) except ValueError: row.setNull(colnum) elif t == tdeTypes['DATETIME']: try: d = datetime.datetime.strptime(val, dateformat) row.setDate(colnum, d.year, d.month, d.day, d.hour, d.minute, d.second, d.microsecond) except ValueError: row.setNull(colnum) elif t == tdeTypes['CHAR_STRING']: row.setCharString(colnum, val) elif t == tdeTypes['UNICODE_STRING']: row.setString(colnum, val) else: print 'Error' row.setNull(colnum) # define csv input inputFile = 'test1.csv' ## Parameters tdeFileName = 'tdetest1.tde' startTime = time.clock() # Handy dictionary of Tableau data types tdeTypes = {'INTEGER': 7, 'DOUBLE': 10, 'BOOLEAN': 11, 'DATE': 12, 'DATETIME': 13, 'DURATION': 14, 'CHAR_STRING': 15, 'UNICODE_STRING': 16} ## Define CSV Schema in dict, (truncated here for brevity) csvSchema = [] csvSchema.append({'fAsOfDate': tdeTypes['DATETIME']}) csvSchema.append({'AsOfDate_Max': tdeTypes['DATETIME']}) csvSchema.append({'LoanID': tdeTypes['INTEGER']}) csvSchema.append({'lenderdatabaseid': tdeTypes['INTEGER']}) csvSchema.append({'loanrecordid': tdeTypes['INTEGER']}) csvSchema.append({'random_num': tdeTypes['INTEGER']}) # Try to create extract, delete if found. try: tdeFile = tde.Extract(tdeFileName) except: os.system('del '+tdeFileName) os.system('del DataExtract.log') tdeFile = tde.Extract(tdeFileName) # Open CSV csvFile = open(inputFile, "rU") reader = csv.reader(csvFile, delimiter = '^') print 'Reading records from %s' % (inputFile) # Create TDE table definition tdeTableDef = tde.TableDefinition() print 'Defined table schema:' # Build TDE Table Def from csv schema dict for index, item in enumerate(csvSchema): for k, v in item.items(): print 'Column %i: %s <%s>' % (index, k, tdeTypes.keys() [tdeTypes.values().index(v)]) tdeTableDef.addColumn(k, v) # Add table to extract tdeTable = tdeFile.addTable("Extract",tdeTableDef) print 'Writing records to %s' % (tdeFileName) # iterate through rows and columns of csv -> add to tde rownum = 0 for row in reader: if rownum == 0: header = row else: colnum = 0 tdeRow = tde.Row(tdeTableDef) for col in row: if colnum+1 > len(csvSchema): break add_tde_col(colnum, tdeRow, row[colnum], csvSchema[colnum].values()[0]) colnum += 1 tdeTable.insert(tdeRow) tdeRow.close() rownum += 1 print '%i rows added in total in %f seconds' % (rownum-1, time.clock()-startTime) tdeFile.close() csvFile.close()

1条回答

网友

1楼 · 发布于 2024-07-04 05:35:22

如果您未能在ctypes.pointer类型中用dill和{}序列化，那么我认为您卡住了。我不知道有没有序列化程序可以处理这些类型。dill可以处理某些ctypes类型，但不能处理指针类型。我建议在github上为dill添加一个问题，也许会发生神奇的事情，您将得到一个新的序列化类型。有了新类型，我将使用pathos.multiprocessing，它应该可以工作。不过，在重写之前，您可能要先看看问题。例如，如果您使用from dill.detect import badobjects, baditems, badtypes, errors，您可能可以看到您需要在多大的深度进行重写。这可能和修改导入的方式一样简单，但是，因为有一个ctypes.pointer，我怀疑这是否容易。在

相关问题更多 >

编程相关推荐

热门问题

热门文章