回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我有以下数据集:</p>
<pre><code>head -2 trip_data_1.csv
medallion,hack_license,vendor_id,rate_code,store_and_fwd_flag,pickup_datetime,dropoff_datetime,passenger_count,trip_time_in_secs,trip_distance,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude
89D227B655E5C82AECF13C3F540D4CF4,BA96DE419E711691B9445D6A6307C170,CMT,1,N,2013-01-01 15:11:48,2013-01-01 15:18:10,4,382,1.00,-73.978165,40.757977,-73.989838,40.751171
</code></pre>
<p>通过按日期对记录进行简单计数,可以得到以下输出:</p>
^{pr2}$
<p>我的问题是:如何创建一个子集(最好是总行数的10%)使其代表整个数据集?我需要确保每个日期至少有40000行数据。在</p>
<p><a href="http://www.andresmh.com/nyctaxitrips/" rel="nofollow">Link to the dataset</a></p>