挖掘数据帧中的唯一单词数

import pandas as pd import re fPath = 'path\there' fName = '\BuzzWords.xlsx' importExcel = pd.read_excel(fPath+fName, sheetname = 'DATA') importExcel.sort_index(inplace = True) bWList = ['words','things'] pattern = '(?i)('+'|'.join(bWList)+')' minerFrame = importExcel[0:0] dFCounter = max(importExcel.index) for i in range(0,dFCounter+1): temp = importExcel[i:i+1] checker = temp[temp['description'].str.contains(pattern)] checker2 = checker.isnull().sum().sum() if checker2 > 0: minerFrame = minerFrame.append(temp) minerFrame = minerFrame.reset_index(drop = True)

1条回答

网友

1楼 · 发布于 2024-09-30 14:26:50

正如@Chris所提到的，来自collections库的Counter对象将返回一个包含唯一单词的字典，以及它们的计数。所以你可以这样做：

from collections import Counter

#...
bwDict = {}
for word in bwList:
    bwDict[word] = 0

for i in range(0,dFCounter+1):

    content = importExcel.loc[i, 'description']
    for key, val in Counter(content).items():
        if key in bwDict.keys():
            bwDict[key] += val

这不会返回组合计数，但使用re库的现有代码应该返回该计数

相关问题更多 >

编程相关推荐

热门问题

热门文章