我想标记文本,但无法。我怎样才能解决这个问题? 我的问题是:
#read_text from file
data = pd.read_csv("input data.txt",encoding = "UTF-8")
print(data)
输出:孟加拉语文本
t = Tokenizers()
print(t.bn_word_tokenizer(data))
错误
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-17-f9f299ecf33d> in <module>
1 `t = Tokenizers()`
----> 2 `print(t.bn_word_tokenizer(dataStr))`
D:\anaconda\lib\site-packages\bnltk\tokenize\bn_word_tokenizers.py in bn_word_tokenizer(self, input_)
15 `tokenize_list` = []
16 `r = re.compile(r'[\s\।{}]+'.format(re.escape(punctuation)))`
---> 17 `list_ = r.split(input_)`
18 `list_ = [i for i in list_ if i`]
19 `return list_`
TypeError: expected string or bytes-like object
试试这个:
这将一次打印一列。如果您希望转换整个数据帧而不是仅打印,请在上面的代码中将a替换为data[column]
相关问题 更多 >
编程相关推荐