使用for循环遍历列表时从csv文件中提取值

count = 0 pleasantness = 0 activation = 0 imagery = 0 for w in data: count = count + 1 if w in df.word: pleasantness = pleasantness + df.pleasantness activation = activation + df.activation imagery = imagery + df.imagery print(count, pleasantness, activation, imagery)

1条回答

网友

1楼 · 发布于 2024-10-02 08:22:42

IIUC，假设你有一个.csv，比如：

z = StringIO("""word,pleasantness,activation,imagery
a,2.0000,1.3846,1.0
abandon,1.0000,2.3750,2.4
abandoned,1.1429,2.1000,3.0
abandonment,1.0000,2.0000,1.4""")

df = pd.read_csv(z)

这就产生了

>>> df
    word        pleasantness    activation  imagery
0   a           2.0000          1.3846      1.0
1   abandon     1.0000          2.3750      2.4
2   abandoned   1.1429          2.1000      3.0
3   abandonment 1.0000          2.0000      1.4

以及文本，例如

text = ("Lorem abandon ipsum dolor sit amet abandonment , consectetur adipiscing elit. abandon Maecenas consequat accumsan lacus. Duis justo nunc, mattis non ante a, convallis luctus eros. Sed sed urna sed magna auctor sagittis eu id magna. Maecenas leo nunc, tincidunt ut sagittis quis, porttitor sit amet ligula. Nunc faucibus ante ac blandit porta")

data = np.array(text.split())

这就产生了

>>> data

['Lorem' 'abandon' 'ipsum' 'dolor' 'sit' 'amet' 'abandonment' ','
 'consectetur' 'adipiscing' 'elit.' 'abandon' 'Maecenas' 'consequat'
 'accumsan' 'lacus.' 'Duis' 'justo' 'nunc,' 'mattis' 'non' 'ante' 'a,'
 'convallis' 'luctus' 'eros.' 'Sed' 'sed' 'urna' 'sed' 'magna' 'auctor'
 'sagittis' 'eu' 'id' 'magna.' 'Maecenas' 'leo' 'nunc,' 'tincidunt'.  'ut'
 'sagittis' 'quis,' 'porttitor' 'sit' 'amet' 'ligula.' 'Nunc' 'faucibus'
 'ante' 'ac' 'blandit' 'porta']

可以使用numpy.isin和collections.Counter作为处理过程中的辅助对象：

>>> d = Counter(data[np.isin(data, df.word)])
>>> d
Counter({'abandon': 2, 'abandonment': 1})

把计算出来的数值

pleasantness, activation, imagery = (0,0,0)
for k,v in d.items():
    values = df.loc[df.word == k]
    pleasantness += values["pleasantness"].item()*v
    activation   += values["activation"].item()*v
    imagery      += values["imagery"].item()*v

在这篇文章中

print(pleasantness, activation, imagery)
3.0   6.75   6.2

你的总数是

print(sum(d.values()))
3

如果要避免循环通过Counter，可以构建一个新的数据帧，例如

ndf = pd.merge(pd.DataFrame(dict(d), index=[0]).T, 
               df.set_index("word"), left_index=True, right_index=True)

哪个是

>>> ndf   
            count   pleasantness    activation  imagery
abandon     2       1.0             2.375       2.4
abandonment 1       1.0             2.000       1.4

将count乘以其余的行

ndf.apply(lambda k: k[0]*k[1:], 1)

得到

                pleasantness    activation  imagery
abandon         2.0             4.75        4.8
abandonment     1.0             2.00        1.4

现在您可以在函数中使用它，例如.sum()

pleasantness    3.00
activation      6.75
imagery         6.20
dtype: float64

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用for循环遍历列表时从csv文件中提取值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >