我有一个包含项目和描述的Excel文件,我试图比较描述的相似性,如果它们相似,就把它们放到一个新的Excel文件中。这些项目也有目录,我正在比较它们,看看它们是否完全不同,它们来自同一个供应商(购买行)也把它们放在新的Excel文件中。当我运行这个文件时,它花费的时间太长,在我让它运行后,我回来时,Spyder关闭了,没有新的文件。所以这是一个由两部分组成的问题,有没有办法让代码更快?为什么没有创建文件?提前谢谢你。我的代码在下面
`import xlrd
import xlsxwriter
from fuzzywuzzy import fuzz
AllItems = xlrd.open_workbook('2-18All_Items-CleanUp.xlsx','rb')
sheets = AllItems.sheet_names()
item = []
base = []
kit = []
buy_line = []
catalogs = []
descriptions = []
similar_desc_item = []
similar_desc = []
diff_catalog_samebuyline = []
sh = AllItems.sheet_by_index(0)
def readexcelfunc():
for rownum in range(sh.nrows):
row_values = sh.row_values(rownum)
item.append((row_values[0]))
base.append((row_values[1]))
kit.append((row_values[2]))
buy_line.append((row_values[6]))
catalogs.append((row_values[8]))
descriptions.append((row_values[12]))
def check_similar_desc():
for i,k in enumerate(descriptions):
for j,l in enumerate(descriptions):
ratio1 = fuzz.token_sort_ratio(k,l)
if ratio1 > 95 and k != l and base[i] != base[j] and kit[i] == "No":
similar_desc_item.append(item[i])
def check_notmatching_catalog():
for x,a in enumerate(catalogs):
for y,b in enumerate(catalogs):
ratio2 = fuzz.token_sort_ratio(a,b)
if ratio2 < 10 and buy_line[x] == buy_line[y]:
diff_catalog_samebuyline.append(catalogs[x])
def Create_ExcelFile():
NewWorkbook = xlsxwriter.Workbook('Sim_Desc.xlsx')
worksheet = NewWorkbook.add_worksheet()
row1 = 0
row2 = 0
for items in similar_desc_item:
worksheet.write(row1,0,items)
row1 += 1
for catalognumb in diff_catalog_samebuyline:
worksheet.write(row2,3,catalognumb)
NewWorkbook.save()
NewWorkbook.close()
readexcelfunc()
check_similar_desc()
print (similar_desc_item)
check_notmatching_catalog()
Create_ExcelFile()
print("Finished")`
Create_ExcelFile()
函数中存在一些问题。第一个是没有工作簿save()
方法。另外,您没有递增row2,因此第二个write()
总是写入第一行,并覆盖其中的任何内容。但是,最重要的是,close()
方法的级别不正确,因此关闭文件太早。这样的方法应该有效:相关问题 更多 >
编程相关推荐