为什么scikit learn标记器不能正确标记utf8（葡萄牙语）文本？

cv=CountVectorizer() cv.fit(titles) tokenizer = cv.build_tokenizer() [tokenizer(s) for s in titles] [['onda', 'como', 'psicologia', 'social', 'pode', 'explicar', 'ac', ## <<<< sklearn failed to identify the word "ação" 'dos', 'grupos'], ['beba', 'menos', 'mas', 'beba', 'melhor', 'entenda', 'lema', 'da', 'cerveja', 'artesanal']]

1条回答

网友

1楼 · 发布于 2024-10-01 04:59:02

^{} [scikit-doc]使用默认为(?u)\b\w\w+\b的token_pattern参数

现在\w不幸的是not capture combining diacritics。然而，可能是一个解决办法。我们可以传递以下正则表达式：

cv = CountVectorizer(token_pattern=r'\b(?:[^\s]){2,}\b')

这似乎适用于您给定的输入：

>>> [tokenizer(s) for s in data]
[['onda',
  'como',
  'psicologia',
  'social',
  'pode',
  'explicar',
  'ação',
  'dos',
  'grupos'],
 ['beba',
  'menos',
  'mas',
  'beba',
  'melhor',
  'entenda',
  'lema',
  'da',
  'cerveja',
  'artesanal']]

但是我不太熟悉有很多变音符号的语言来测试这是否适用于所有可能的组合变音符号

相关问题更多 >

编程相关推荐

热门问题

热门文章