擅长:python、mysql、java
<p>第一步是保留一组有效的单词,如果您的断字单词在有效单词集中,则取消断字。Ubuntu在/usr/share/dict/american english上有一个有效单词列表。过于简单的版本可能看起来像:</p>
<pre><code>valid_words = set(line.strip() for line in open(valid_words_file))
output = []
for word in open(new_file).read().replace('-\n', '').replace('\n', ' ').split():
if '-' in word and word.replace('-', '') in valid_words:
output.append(word.replace('-', ''))
else:
output.append(word)
</code></pre>
<p>你需要处理标点符号、大写字母等等,但这就是问题所在。在</p>