擅长:python、mysql、java
<p>我不认为你能轻易查到这个。这不太可能是一个简单的字符串匹配问题,您可以抛出一个正则表达式,因为我猜您使用的名称'Roger'只是一个例子,并且任何数量的名称都可以出现在这个位置。您还可以运行其他海报提供的一个正则表达式,用明显的名字和姓氏的每个排列来参数化它。“肯定”和“错误”之间可能要花太长时间。在</p>
<p>另一种方法,与您在上面发布的模式一起工作,就是获取用户名的最后4个字母,并将它们与其他内容进行比较。通过训练合法文本上的马尔可夫链,可以识别随机字符,而不是合理排列的字符(给定特定语言),然后可以计算给定的4个字母在该语言中按该顺序出现的概率。对于随机字母,这种概率通常远低于合法名称(尽管如果其中有特殊字符或数字,则所有赌注都将被取消)。在</p>
<p>另一种方法可能是使用贝叶斯过滤器(例如,Python中的<a href="http://divmod.org/trac/wiki/DivmodReverend" rel="nofollow noreferrer">Reverend</a>之类的东西,尽管还有其他的)根据合法电子邮件地址的最后4个字母进行训练。这可能会发现95%的数据是随机的,前提是你让数据可用。不只是提交4个字母,而是每个2个字母和3个字母的子字符串,以捕捉每个字母的上下文。不过,我不认为这会像马尔科夫风格的方法那样有效。在</p>
<p>无论你做什么检查,你都可以通过只提交特定的电子邮件地址来减少误报(例如,只有那些在webmail地址中包含下划线的地址,在下划线之前至少有3个字符,在下划线之后至少有5个字符。)</p>
<p>但最终,你永远无法知道它是垃圾邮件地址还是真实地址,除非它被用于某个目的。因此,如果可能的话,我建议放弃尝试分析内容,在其他地方解决问题。他们以什么方式扼杀了转化率?如果你用某种度量来计算这些虚拟帐户,那么最好先添加一个验证阶段,只关心通过验证的帐户的度量。有些人确实有这样的地址rogerep_dyeepvu@hotmail.com,毕竟。在</p>