回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我有一个名为<code>messages.txt</code>的文件,它由许多以行分隔的句子组成。我试图排除包含非字母字符的行(我只想要包含A-Z字符的行)</p>
<pre><code>import re
import string
lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8')]
cleaned_lines = [s.replace("!", "").replace(".", "").replace("?", "").replace(",", "") for s in lines]
output_lines = []
for line in cleaned_lines:
if line.replace(' ', '').isalpha() == True:
output_lines.append(re.sub(r'\W+', '', line.lower()))
chars = sorted(set(('').join(output_lines)))
print(chars)
</code></pre>
<p>输出:</p>
<pre><code>['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'ª', 'â', 'ã', 'å', 'ð', 'ÿ', 'œ', 'š', 'ž', 'ƒ', 'ˆ']
</code></pre>
<p>可以看出,isalpha()方法似乎没有排除奇怪的</p>
<pre><code>'â', 'ã', 'å', 'ð', 'ÿ'
</code></pre>
<p>我有一种感觉,这可能是由于文件正在被读入的编码,但是,我假设isalpha方法与模式RegEx结合应该能够过滤掉这些字符</p>
<p>这是故意的吗?如果是,可以用什么方法来删除这些奇怪的字符</p>