从大的.txt文件生成模型读取语料库时出错

from collections import Counter file=open('corpus.txt','r') data=file.readlines() file.close() palabras = [] count_list = [] for linea in data: linea.decode('latin_1').encode('UTF-8') # para los acentos palabra_tag = linea.split('\n') palabras.append(palabra_tag[0]) cuenta = Counter(palabras) # dictionary for count ocurrences for a word + tag #Assign for every word + tag the number of times appears for palabraTag in palabras: for i in range(len(palabras)): if palabras[i] == palabraTag: count_list.append([palabras[i], str(cuenta[palabraTag])]) #We delete repeated ones finalList = [] for i in count_list: if i not in finalList: finalList.append(i) outfile = open('lexic.txt', 'w') outfile.write('Palabra\tTag\tApariciones\n') for i in range(len(finalList)): outfile.write(finalList[i][0]+'\t'+finalList[i][1]+'\n') # finalList[i][0] is the word + tag and finalList[i][1] is the numbr of ocurrences outfile.close()

Al Prep menos Adv cinco Det reclusos Adj murieron V en Prep las Det últimas Adj 24 Num horas NC en Prep las Det cárceles NC de Prep Valencia NP y Conj Barcelona NP en Prep incidentes NC en Prep los Det que Pron su Det

2条回答

网友

1楼 · 编辑于 2024-10-05 10:06:12

如果将这两段代码组合起来，就可以减少内存使用

#Assign for every word + tag the number of times appears
for palabraTag in palabras:
    for i in range(len(palabras)):
        if palabras[i] == palabraTag:       
            count_list.append([palabras[i], str(cuenta[palabraTag])])


#We delete repeated ones
finalList = []
for i in count_list:
    if i not in finalList:
        finalList.append(i)

您可以检查盘点列表中是否已经存在一个项目，这样就不会首先添加重复项。这样可以减少内存使用。见下文

#Assign for every word + tag the number of times appears
for palabraTag in palabras:
    for i in range(len(palabras)):
        if palabras[i] == palabraTag and
           [palabras[i], str(cuenta[palabraTag])] not in count_list:
                count_list.append([palabras[i], str(cuenta[palabraTag])])

网友

2楼 · 编辑于 2024-10-05 10:06:12

最后，我使用dictionary改进了代码，以下是100%正常工作的结果：

file=open('corpus.txt','r')
data=file.readlines()
file.close()

diccionario = {}

for linea in data:
    linea.decode('latin_1').encode('UTF-8') # para los acentos
    palabra_tag = linea.split('\n')
    cadena = str(palabra_tag[0])
    if(diccionario.has_key(cadena)):
        aux = diccionario.get(cadena)
        aux += 1
        diccionario.update({cadena:aux})
    else:
        diccionario.update({cadena:1})

outfile = open('lexic.txt', 'w')
outfile.write('Palabra\tTag\tApariciones\n')

for key, value in diccionario.iteritems() :
    s = str(value)
    outfile.write(key +" "+s+'\n')
outfile.close()

相关问题更多 >

编程相关推荐

热门问题

热门文章