In machine learning and statistics, classification is the problem of identifying to which of a set of categories (sub-populations) a new observation belongs, on the basis of a training set of data containing observations (or instances) whose category membership is known.[1]
不确定这些问题是否需要机器学习,可以使用常规统计数据。一、 建立一个概率分布图,
x
-一天中的时间,y
-概率它是旧金山。如果时间在a
和b
之间,计算旧金山的概率。。。以下是如何在pandas数据框中加载数据的方法:
输出:
我看不出你有什么问题。因为这是一个从epoch开始计算秒数的时间戳,所以您只需应用modulo运算符,其值就是感兴趣的范围。如果你训练一个分类器,你应该能够预测每一个即将到来的地方。主要的问题不是性能,因为学习只是偶尔完成,而是如何更新学习的数据集。 如前所述,您不必为此使用机器学习,但如果您想使用机器学习,这基本上可以使用1d数据集上的k近邻来完成。
[编辑]: 把语言混在一起但又把它固定了下来:分类器是用来进行统计分类的算法。
由于我只使用sklearn来做这些事情,下面是一个极简的例子,说明如何使用k近邻分类器[2]。为了能够分类,您必须将字符串更改为数字,然后在给定的测试数据集上训练分类器,然后才能预测新的给定时间戳的位置。
[1]:http://en.wikipedia.org/wiki/Statistical_classification
[2]:http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
这个解决方案的性能取决于您对模式识别的需求有多细。 假设你的要求是把一天分成4部分:
Morning,Noon,Evening,Night
,让我们调用它们time_slots
现在让我们看看你的日常活动日志有多大,1年,2年,3年?
假设是一年。
所以我们总共有365*4=1460个时间段需要监控。
现在,基于每个
time_slot
的时间戳创建一个简单的映射。 它从T1开始到T2结束(T1和T2是时间戳,如1365650813354)。根据日志中的时间戳值,很容易找到它的
time_slot
,即1月28日晚上,或者 1月30日上午。您必须将
time_slot
与place_i_was数据存储在任何具有正确模式的合适数据库中。 这取决于你想要什么样的查询和分析。这样,您就不需要在数据集上运行公式,预定义的映射/数据库查找将满足您的需要。
相关问题 更多 >
编程相关推荐