我正在尝试创建一个机器学习算法,用于地址分类或类似的地址分类,用于农村(村庄)地区。我有一个历史数据,包括地址列表(自变量)、村名(自变量)、Pin码(自变量)、客户手机号和路线号(因变量)。路线编号为送货车,这将有助于他们覆盖该地区最大数量的送货目的地
挑战-
好事-
并非所有自变量都可以同时为错误/空
现在,创建此算法的目的是根据“地址”、“村庄”、“Pin码”和历史数据(其中我们手动选择了送货车的路线)来选择最佳路线号
我是初学者,我不知道该怎么做,该用哪个过程
我已经完成了任务
地址清理-删除短词,删除大词,删除停止词
现在试着用单词向量来做,但我做不到
首先,您必须先构建一个数据集-包含尽可能多的村庄名称!因为许多村庄都有相似的名字,所以识别一个拼写错误是相当困难和危险的!有一两个字母的差别。所以,数据集越大越好。 然后,尝试使用TF-IDF来组合村名和PIN码(this link may be helpful for Indian data),或者可以使用模糊逻辑。 希望有帮助!快乐的编码
相关问题 更多 >
编程相关推荐