关于单列函数的计算问题

2024-06-01 09:30:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个关于熊猫/NLTK的问题。你知道吗

我的数据帧如下所示:

Name    Age     Text
Anne    23     "foo you"
Joan    20     "woo you"
Marie   28     "boo you"
John    31     "moo you"
Mark    37     "loo you"

我需要使用NLTK python库计算一个新列,如下所示:

Name    Age     Text        Tokens
Anne    23    "foo you"      ['foo','you']
Joan    20    "woo you"      ['woo','you']
Marie   28    "boo you"      ['boo','you']
John    31    "moo you"      ['moo','you']
Mark    37    "loo you"      ['loo','you']

我使用以下代码:

df['tokens'] = nltk.word_tokenize(df['text'])

但是我得到了一个错误,因为它每行存储一个令牌,而不是对应行上的所有令牌。你知道吗

欢迎任何帮助。你知道吗

事先非常感谢。你知道吗


Tags: textnameyouagefoojohnmarknltk
1条回答
网友
1楼 · 发布于 2024-06-01 09:30:12
df['Tokens'] = df['Text'].str.replace('"', '').apply(nltk.word_tokenize)
    Name    Age Text        Tokens
0   Anne    23  "foo you"   ['foo', 'you']
1   Joan    20  "woo you"   ['woo', 'you']
2   Marie   28  "boo you"   ['boo', 'you']
3   John    31  "moo you"   ['moo', 'you']
4   Mark    37  "loo you"   ['loo', 'you']

相关问题 更多 >