文本分类与推荐

2024-06-25 12:42:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试创建一个机器学习算法,用于地址分类或类似的地址分类,用于农村(村庄)地区。我有一个历史数据,包括地址列表(自变量)、村名(自变量)、Pin码(自变量)、客户手机号和路线号(因变量)。路线编号为送货车,这将有助于他们覆盖该地区最大数量的送货目的地

挑战-

  1. “地址”可能拼写错误
  2. “村庄名称”可以为空
  3. “Pin码”可能是错误的

好事-

并非所有自变量都可以同时为错误/空

现在,创建此算法的目的是根据“地址”、“村庄”、“Pin码”和历史数据(其中我们手动选择了送货车的路线)来选择最佳路线号

我是初学者,我不知道该怎么做,该用哪个过程

我已经完成了任务

地址清理-删除短词,删除大词,删除停止词

现在试着用单词向量来做,但我做不到


Tags: 算法机器列表客户地址错误pin分类
1条回答
网友
1楼 · 发布于 2024-06-25 12:42:02

首先,您必须先构建一个数据集-包含尽可能多的村庄名称!因为许多村庄都有相似的名字,所以识别一个拼写错误是相当困难和危险的!有一两个字母的差别。所以,数据集越大越好。 然后,尝试使用TF-IDF来组合村名和PIN码(this link may be helpful for Indian data),或者可以使用模糊逻辑。 希望有帮助!快乐的编码

相关问题 更多 >