数据集中的扩展收缩

2024-09-27 02:20:38 发布

男 | 程序猿一只，喜欢编程写python代码。

我的数据框有数千行。它看起来像这样：

dataset_prep = pd.DataFrame(list_kalimat, columns=['token', 'entitas bernama', 'kalimat'])

    token       entitas bernama kalimat
0   Ia                O           1
1   menjabat          O           1
2   sebagai           O           1
3   Presiden          O           1
4   ketiga            O           1
5.  jl.Gatot          0           1

我想在token列中展开收缩。这是我的字典

import re
contractions_dict = {
"a.l.": "antara lain",
"A.M.v.B.": "Algemene Maatregel van Bestuur",
"a.n.": "atas nama",
"adm.": "administrasi",
"UU" : "undang-undang",
"art.": "artikel",
"jl." : "jalan"}

还有我试过的代码

contractions_re=re.compile('(%s)' % '|'.join(contractions_dict.keys()))

# Function for expanding contractions
def expand_contractions(text,contractions_dict=contractions_dict):
  def replace(match):
    return contractions_dict[match.group(0)]
  return contractions_re.sub(replace, text)

# Expanding Contractions in the reviews
dataset_prep['token']=dataset_prep['token'].apply(lambda x:expand_contractions(x))

但我犯了这样一个错误：

KeyError: 'gga'

所需的最终输出如下所示：

    token       entitas bernama kalimat
0   Ia                O           1
1   menjabat          O           1
2   sebagai           O           1
3   Presiden          O           1
4   ketiga            O           1
5.  jalan Gatot       0           1

我不明白这个错误是什么意思

Tags： re token dataset dict ia jl prep sebagai

0条回答

目前没有回答

数据集中的扩展收缩

相关问题更多 >

编程相关推荐

热门问题

热门文章

数据集中的扩展收缩

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >