将成对表转换为二进制制表符

import pandas as pd import numpy as np import csv from collections import Counter import time df = pd.read_csv( filepath_or_buffer='sample.csv', sep=',') x = df.ix[:, 1].values y = df.ix[:, 0].values x_vals = [] y_vals = [] counter = Counter(x) start_time = time.time() for each in counter: if counter[each]>=10: for i, j in enumerate(x): if j==each: print "Adding position:" + str(i) x_vals.append(each) y_vals.append(y[i]) print "Time took: %s" %(time.time()-start_time)

1条回答

网友

1楼 · 发布于 2024-10-06 07:55:31

我可能会添加一个虚拟列，然后调用pivot_table：

>>> df = pd.DataFrame({"PERSON": ["p1", "p2", "p3"] * 10, "ATTRIBUTE": np.random.choice(["a","b","c","d","e","f","x"], 30)})
>>> df.head()
  ATTRIBUTE PERSON
0         d     p1
1         b     p2
2         x     p3
3         b     p1
4         f     p2
>>> df["count"] = 1
>>> p = df.pivot_table(index="PERSON", columns="ATTRIBUTE", values="count", 
                       aggfunc=sum, fill_value=0)
>>> p
ATTRIBUTE  a  b  c  d  e  f  x
PERSON                        
p1         1  3  1  1  1  0  3
p2         2  1  1  2  1  2  1
p3         0  4  1  1  2  0  2

然后我们只能选择出现次数超过10次的属性（这里是我的示例中的5个）：

>>> p.loc[:,p.sum() >= 5]
ATTRIBUTE  b  x
PERSON         
p1         3  3
p2         1  1
p3         4  2

相关问题更多 >

编程相关推荐

热门问题

热门文章