所以我在文本文件中有一个单词列表。我想对它们进行引理化,以去除具有相同含义但处于不同时态的单词。比如try,try等。当我这样做的时候,我总是会得到一个错误,比如type error:unshable type:'list'
results=[]
with open('/Users/xyz/Documents/something5.txt', 'r') as f:
for line in f:
results.append(line.strip().split())
lemma= WordNetLemmatizer()
lem=[]
for r in results:
lem.append(lemma.lemmatize(r))
with open("lem.txt","w") as t:
for item in lem:
print>>t, item
如何将已经是标记的单词进行柠檬化?
方法
WordNetLemmatizer.lemmatize
可能需要一个字符串,但您要向它传递一个字符串列表。这给了您一个TypeError
异常。line.split()
的结果是作为列表附加到results
的字符串列表,即列表列表列表。你想使用
results.extend(line.strip().split())
或者在没有中间结果列表的情况下重构
相关问题 更多 >
编程相关推荐