使用Python删除包含非科学字符的单词

网友

1楼 · 编辑于 2024-10-04 07:26:00

如果基于空格定义单词，则可以使用以下方法：

def containsNonAscii(s):
    return any(ord(i)>127 for i in s)

words = sentence.split()
cleaned_words = [word for word in words if  not containsNonAscii(word)]
cleaned_sentence = ' '.join(cleaned_words)

请注意，这将把重复的空白压缩成一个空格。在

网友

2楼 · 编辑于 2024-10-04 07:26:00

我想出了以下函数。我删除包含任何ASCII字符的所有单词，但范围可能会根据需要进行扩展。在

def removeWordsWithASCII(s):
    " ".join(filter(lambda x: not re.search(r'[\x20-\x7E]', x), s.split(' ')))

网友

3楼 · 编辑于 2024-10-04 07:26:00

最干净（但不一定是最有效的）方法是将一个字转换成二进制，并尝试将其解码为ASCII。如果尝试失败，则单词包含非ASCII字符：

def is_ascii(w):
  try:
    w.encode().decode("us-ascii")
    return True
  except UnicodeEncodeError:
    return False

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python删除包含非科学字符的单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >