识别字符串Python中的相似性和模式问题的回答

识别字符串Python中的相似性和模式

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我不认为你能轻易查到这个。这不太可能是一个简单的字符串匹配问题，您可以抛出一个正则表达式，因为我猜您使用的名称'Roger'只是一个例子，并且任何数量的名称都可以出现在这个位置。您还可以运行其他海报提供的一个正则表达式，用明显的名字和姓氏的每个排列来参数化它。“肯定”和“错误”之间可能要花太长时间。在 另一种方法，与您在上面发布的模式一起工作，就是获取用户名的最后4个字母，并将它们与其他内容进行比较。通过训练合法文本上的马尔可夫链，可以识别随机字符，而不是合理排列的字符（给定特定语言），然后可以计算给定的4个字母在该语言中按该顺序出现的概率。对于随机字母，这种概率通常远低于合法名称（尽管如果其中有特殊字符或数字，则所有赌注都将被取消）。在 另一种方法可能是使用贝叶斯过滤器（例如，Python中的<a href="http://divmod.org/trac/wiki/DivmodReverend" rel="nofollow noreferrer">Reverend</a>之类的东西，尽管还有其他的）根据合法电子邮件地址的最后4个字母进行训练。这可能会发现95%的数据是随机的，前提是你让数据可用。不只是提交4个字母，而是每个2个字母和3个字母的子字符串，以捕捉每个字母的上下文。不过，我不认为这会像马尔科夫风格的方法那样有效。在 无论你做什么检查，你都可以通过只提交特定的电子邮件地址来减少误报（例如，只有那些在webmail地址中包含下划线的地址，在下划线之前至少有3个字符，在下划线之后至少有5个字符。） 但最终，你永远无法知道它是垃圾邮件地址还是真实地址，除非它被用于某个目的。因此，如果可能的话，我建议放弃尝试分析内容，在其他地方解决问题。他们以什么方式扼杀了转化率？如果你用某种度量来计算这些虚拟帐户，那么最好先添加一个验证阶段，只关心通过验证的帐户的度量。有些人确实有这样的地址rogerep_dyeepvu@hotmail.com，毕竟。在

识别字符串Python中的相似性和模式

1 个回答

相关Python问题