NLP：如何将词干和标记结合起来？

#### Stemming ps = PorterStemmer() # PorterStemmer imported from nltk.stem stemText = [] for word in swFiltText: # Tagged text w/o stop words stemText.append(ps.stem(word)) #### POS Tagging def tagging(): tagTot = [] try: for i in stemText: words = nltk.word_tokenize(i) # I need to tokenize again (idk why?) tagged = nltk.pos_tag(words) tagTot = tagTot + tagged # Combine tagged words into list except Exception as e: print(str(e)) return tagTot tagText = tagging()

2条回答

网友

1楼 · 编辑于 2024-10-01 19:32:59

在应用词干或柠檬化之前，应该标记文本

去掉单词的结尾会带走关于一个单词可以是什么词性标记的重要线索

将hous作为形容词的原因是，任何标记者都希望使用未处理的标记，而英语中以-ous结尾的单词通常是形容词（邪恶的，严重的）。如果你先标记它，它可以被识别（即使没有上下文）为名词或动词。然后，标记者可以使用上下文（前面是名词？->；）来消除最可能出现的歧义

一个好的引理学家可以考虑词性，例如，housing可以是名词（引理：housing）或动词（引理：house）。有了p-o-s信息，柠檬人可以在那里做出正确的选择

您是使用词干还是柠檬化取决于您的应用程序。在许多方面，它们是等效的。与我的经验主要不同的是：

词干分析要快得多，因为词干分析器有一些关于如何处理各种结尾的规则
Lemmatization为您提供了“适当”的单词，您可以在字典中查找这些单词（如果您想在其他语言或定义中获得gloss）
词干字符串有时看起来与原始单词完全不同，如果您将它们呈现给用户，他们可能会感到困惑
词干分析器将意思相似但引理不同的词合并在一起，因此对于信息检索来说，词干分析器可能更有用
词干分析器不需要单词列表，因此如果您想编写自己的词干分析器，它比编写lemmatiser（如果您正在处理没有现成工具的语言）要快

网友

2楼 · 编辑于 2024-10-01 19:32:59

我建议使用柠檬化而不是词干分析，词干分析只是从末尾切掉字母，直到找到词根/词干。柠檬化也会查看周围的文本，以确定给定单词的词性

相关问题更多 >

编程相关推荐

热门问题

热门文章