我有一列30万条线。它由19个独特的字符串组成。现在我只想选择该列中的5000个元素,但是每个字符串应该平均出现。当然,这受到该列中字符串的最小/最大出现次数的限制。你知道吗
我想也许我可以熊猫.facotrize,但我真的不知道如何掩盖列。有我不知道的numpy/pandas功能吗?你知道吗
如果我对字符串进行因式分解,结果是一样的:
strings=np.random.randint(19, size=300000)
现在我要设法屏蔽这个数组,使每个数相等地出现,“真”的数是5000。完美的模式是,如果我也能给出其中一个字符串出现在其他字符串上的因子,但这只是加法。你知道吗
设置
pandas.DataFrame.sample
算出你需要的实际数字,然后从每组中抽取样本
相关问题 更多 >
编程相关推荐