如何转换nltkcollocationfinder单词列表中的数据帧？

import pandas as pd data = pd.read_csv("tweets.csv") import regex as re def cleaningTweets(twt): twt = re.sub('@[A-ZÜÄÖa-züäöß0-9]+', '', twt) twt = re.sub('#', '', twt) twt = re.sub('https?:\/\/\S+', '', twt) return twt df = pd.DataFrame(data) df.tweet = df.tweet.apply(cleaningTweets) df.tweet = df.tweet.str.lower() from textblob_de import TextBlobDE as TextBlob df["tweet_tok"] = df["tweet"].apply(lambda x: " ".join(TextBlob(x).words)) all_words = ' '.join([text for text in df.tweet_tok]) tweettext = nltk.Text(all_words)

1条回答

网友

1楼 · 发布于 2024-05-19 12:04:42

如果您所追求的只是一个句子中的单词列表，那么我认为您正在寻找Python string对象上的.split方法。Pandas有一个内置方法，可以将字符串拆分应用于数据帧（或系列）中的每一行，并在需要时扩展到各个列

例如，尝试这段代码，看看它是否符合您的要求：

import pandas as pd
strings_to_split = [
    "i like to be beside the sea",
    "me too"
]
pd.Series(strings_to_split).str.split(expand=True)

几点注意：

只需在空白处调用.split()拆分，但您可以传递任何字符来执行拆分，例如.split('a')
根据下面评论中的问题，传递expand=False以将列表保留在每行中，而不是扩展到列中

相关问题更多 >

编程相关推荐

热门问题

热门文章