擅长:python、mysql、java
<p><strong>线性替换</p>
<p>你会想要一些适合创新的正字法。首先,用其他字符作为通配符,将字母字符与你的禁词词典进行模式匹配。例如,您的示例将被翻译为“h…o”,这与您提出的禁忌词“hello”相匹配。你知道吗</p>
<p>接下来,您将把非字母字符与替换字典进行比较,允许通用通配符代表任何内容。例如,星号、连字符和句点可以代表任何东西;“4”和“@”可以代表“A”,依此类推。但是,您将从禁忌词的强度来进行检查,而不是从生成所有的可能性来进行检查:翻译是相反的。你知道吗</p>
<p>你会有点模棱两可,因为有些字符代表多个字母。”@“当你变得狡猾时,可以用‘O’来代替。还要注意的是,并不是所有的字母都在您通常的集合中:您需要处理货币符号(欧元、日元和英镑都是从字母派生的),以及碰巧与拉丁字母相似的外国字母。你知道吗</p>
<p><strong>多字符替换</strong></p>
<p>只处理与禁忌词长度相同的词。你也能处理缩写吗?“h-bomb”的形式有很多组合,其中被禁止的单词只出现在第一个字母中:效果是亵渎的,但匹配起来更困难,特别是用scharfes-s(德语)替换“b”,用希伯来语或希腊语字符替换“m”,用任何圆形的“o”组成整个字体。你知道吗</p>
<p><strong>上下文</strong></p>
<p>还有一个问题是,有些词在某种语境中完全合法,但在俚语语境中却是亵渎的。你是否也在计划匹配短语,或者分析句子中的触发词?你知道吗</p>
<p><strong>培训解决方案</p>
<p>如果你需要一个全面的解决方案,可以考虑训练一个神经网络,用你标记为“好”和“禁忌”的短语和单词,让它运行一天。这可以减轻你肩上的大量适应工作,增强模型并不是一个难题:添加新的区分文本,从你结束的地方继续训练。你知道吗</p>