累计同一列数据值的计数作为单独的列

import csv import numpy as np import pandas as pd from collections import defaultdict, Counter import pandas.util.testing as tm; tm.N = 3 data = pd.DataFrame.from_csv('MYDATA.csv') data[['QualityIssue','CompanyName']] data['QualityIssue'].value_counts() RatedCustomerCallers = data['CompanyName'].value_counts() TopCustomerCallers = RatedCustomerCallers[0:18] print(TopCustomerCallers) TopCustomerCallers.to_csv('topcustomercallerslist.csv') byqualityissue = data.groupby(["CompanyName","QualityIssue"]).size() print byqualityissue byqualityissue.to_csv('byqualityissue.csv', header=True)

Top Calling Customers, Equipment, User, Neither, Company 3, 3, 10, 13, Company 1, 15, 0, 0, Customer 2, 5, 1, 0,

2条回答

网友

1楼 · 编辑于 2024-09-30 06:27:01

本着StackOverflow的精神，下面是我如何解决我的问题。在

import numpy as np
import pandas as pd
import pandas.util.testing as tm; tm.N = 3

data = pd.DataFrame.from_csv('MYDATA.csv')
byqualityissue = data.groupby(["CompanyName","QualityIssue"]).size()
df = pd.DataFrame(byqualityissue)

formatted = df.unstack(level=-1)
formatted[np.isnan(formatted)] = 0
formatted.to_csv('byqualityissue.csv', header=True)

includingtotals = pd.concat([formatted,pd.DataFrame(formatted.sum(axis=1),columns=['Total'])],axis=1)
sorted = includingtotals.sort_index(by=['Total'], ascending=[False])

我使用unstack重新组织数据，用0替换NaN值，将所有行相加，并用这些值附加一个新列，然后进行排序。在

网友

2楼 · 编辑于 2024-09-30 06:27:01

在中读取CSV文件。按公司和质量问题索引，然后在质量问题上取消标记。最后，替换由于没有找到匹配数据而出现的Nan值

In [341]: d1
Out[341]:
    Company Name Quality Issue  Cases
0         Co 1     Equipment     15
1         Co 2          User      1
2         Co 2     Equipment      5
3         Co 3     Equipment      3
4         Co 3          User     10
5         Co 3       Neither     13

In [342]: d2 = d1.set_index(["Company Name", "Quality Issue"])

In [343]: d2
Out[343]:
                        Cases
Company Name Quality Issue
Co 1         Equipment         15
Co 2         User               1
             Equipment          5
Co 3         Equipment          3
             User              10
             Neither           13

In [344]: d3 = d2.unstack("Quality Issue")

In [345]: d3.fillna(0)
Out[345]:
    Cases
Quality Issue  Equipment  Neither  User
Company Name
Co 1                  15        0     0
Co 2                   5        0     1
Co 3                   3       13    10

相关问题更多 >

编程相关推荐

热门问题

热门文章