R unnest_token（）v.s Python str.split（）中的正则表达式行为

df <- data.frame("id" = 1, "author" = 'trump', "Tweet" = "RT @kin2souls: @KimStrassel Anyone that votes") unnest_regex <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))" df_long <- df %>% unnest_tokens( word, Tweet, token = "regex", pattern = unnest_regex)

data_long = {'id':[1,1,1,1,1,1], "author":["trump","trump","trump","trump","trump","trump"], "word": ["rt", "@kin2souls", "@kimstrassel", "anyone", "that", "votes"]} df_long = pd.DataFrame.from_dict(data_long)

1条回答

网友

1楼 · 发布于 2024-10-03 02:33:00

str split和explode的组合应该复制您的输出：

(df
 .assign(Tweet=df.Tweet.str.lower().str.split(r"[:\s]"))
 .explode("Tweet")
 .query('Tweet != ""')
 .reset_index(drop=True)
)


    id  author  Tweet
0   1   trump   rt
1   1   trump   @kin2souls
2   1   trump   @kimstrassel
3   1   trump   anyone
4   1   trump   that
5   1   trump   votes

我利用了文本由空格分隔的事实，以及偶尔出现的:

或者，您可以使用str extractall-我觉得它要长一点：

(
    df.set_index(["id", "author"])
    .Tweet.str.lower()
    .str.extractall(r"\s*([a-z@\d]+)[:\s]*")
    .droplevel(-1)
    .rename(columns={0: "Tweet"})
    .reset_index()
)

不确定unnest_token如何与regex一起工作-也许其他人可以解决这个问题

相关问题更多 >

编程相关推荐

热门问题

热门文章