Python Pandas数据帧单元更改不显示

websitesAlchData = pd.io.parsers.read_csv('websitesAlchData.csv', sep=';', index_col='referer', encoding="utf-8") bagOfWords = pd.io.parsers.read_csv('bagOfWords.csv', sep=';', header=0, names=["id","words","count"], encoding="utf-8") a = set(bagOfWords['words']) websitesAlchData['keywordIds'] = "[]" for i in websitesAlchData.index keywords = websitesAlchData.loc[i,'keywords'] try: keywordsSet = set([ s.lower() for s in keywords.split(",") ]) except: keywordsSet = set() existingWords = a & keywordsSet lista = [] for i in bagOfWords.index: if bagOfWords.loc[i,'words'] in existingWords: lista.append(bagOfWords.loc[i,'id']) websitesAlchData.loc[i,'keywordIds'] = str(lista) print(str(lista)) print(websitesAlchData.loc[i,'keywordIds']) websitesAlchData.reset_index(inplace=True) websitesAlchData.to_csv(path_or_buf = 'websitesAlchDataKeywordCode.csv', index=False, sep=";", encoding="utf-8")

2条回答

网友

1楼 · 编辑于 2024-10-01 17:27:23

对两个for循环使用i肯定有问题。改变一下，看看有没有帮助。在

网友

2楼 · 编辑于 2024-10-01 17:27:23

我会试试这样的。您需要在较大的数据集上分析性能。在

In [146]: df1
Out[146]: 
  referer category           keywords
0     url      int  word0,word2,word3
1     url      int        word1,word3

[2 rows x 3 columns]

In [147]: df2
Out[147]: 
       id  count
index           
word0   0     11
word1   1     14
word2   2     14
word3   3     14

[4 rows x 2 columns]

将keywords列拆分为一个单词列表。通常在数据帧中存储列表对于性能来说是个坏主意，但这是目前最直接的方法。在

^{pr2}$

然后对df2中列表的每个元素应用查找：

In [151]: ids = vals.apply(lambda x: [df2.loc[y, 'id'] for y in x])

In [152]: ids
Out[152]: 
0    [0, 2, 3]
1       [1, 3]
Name: keywords, dtype: object

最后，concat：

^{4}$

相关问题更多 >

编程相关推荐

热门问题

热门文章