基于文本匹配的Pandas数据帧连接与运行计算

reviewBody reviewClean sentimentScore 'I like these goggles' 'like goggles' 1 'I don't like these goggles' 'don't like goggles' -1 'My strap broke' 'strap broke' -1 ... ... ...

1条回答

网友
1楼 · 发布于 2024-06-18 13:15:16

您将不得不执行交叉连接see this post，以便检查每个审阅是否包含每个bigram。使用apply是不方便的，因为您需要进行行字符串比较。你知道吗
df = pd.DataFrame([['I like these goggles', 'like goggles', 1], ["I don't like these goggles", "don't like goggles", -1], ['My strap broke', 'strap broke', -1]], columns=['reviewBody', 'reviewClean', 'sentimentScore']) bigrams = pd.DataFrame([['like goggles', 150], ['strap broke', 100]], columns=['topBigrams', 'frequency']) dfx = bigrams.assign(key=1).merge(df.assign(key=1), on='key').drop('key', 1) dfx['has_bigram'] = dfx.apply(lambda x: x.get('topBigrams') in x.get('reviewClean'), axis=1)
在每次清理的评论中检查了bigram之后，您可以使用groupby来计算for bigram上的平均情绪，只针对存在bigram的地方。然后将其合并回bigrams数据帧。你知道吗
bigrams.merge(dfx.groupby(['topBigrams', 'has_bigram']) .mean() .reset_index() .query('has_bigram') .rename(columns={'sentimentScore':'avgSentiment'}) .get(['topBigrams', 'avgSentiment']), on='topBigrams') # returns: topBigrams frequency avgSentiment 0 like goggles 150 0 1 strap broke 100 -1

相关问题更多 >

编程相关推荐

热门问题

热门文章