如何解决文本扩展中的错误结果

2024-09-27 02:23:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在我的数据集中展开收缩。我得到了结果,但不匹配

这是我试过的代码

contractions_dict = {
"a.l.": "antara lain",
"A.M.v.B.": "Algemene Maatregel van Bestuur",
"gg.": "gang",
"Jl." : "jalan ",
"T." : "teuku",}

# Expanding Contractions 
dataset = pd.DataFrame(list_kalimat, columns=['token', 'entitas bernama', 'kalimat'])
dataset.token.replace(to_replace=contractions_dict, inplace=True, value=None, regex=True)

我将展示展开前和展开后单词之间的比较。这是上面代码的结果

^{tb1}$

奇怪的是为什么单词tengah中的字母t也被展开,而单词dianggap中的gg也被展开

我想这是因为字典里的句号没有读过,但我不知道它是真是假。我想问的是如何修复它? 多谢各位


Tags: 数据代码tokentrue单词datasetdictreplace

热门问题