正则表达式匹配所有Hangul（韩文）字符和音节块

1条回答

网友

1楼 · 发布于 2024-05-05 21:25:47

您知道Unicode是如何分解成块的，以及每个块如何表示连续的代码点范围吗？也就是说，有一个比正则表达式更有效的解决方案。在

Hangul Jamo有一个单独的代码块，在CJK block、a compatability block、Hangul syllables等中有附加字符

最有效的方法是使用if/then语句检查每个字符是否在可接受的范围内。几乎可以肯定的是，使用C扩展可以加快速度。在

例如，如果我只是检查朝鲜文块（不够，但只是一个简单的起始位置），我会用以下代码检查字符串中的每个字符：

def is_hangul_character(char):
    '''Check if character is in the Hangul Jamo block'''

    value = ord(char)
    return value >= 4352 and value <= 4607


def is_hangul(string):
    '''Check if all characters are in the Hangul Jamo block'''

    return all(is_hangul_character(i) for i in string)

对于包含朝鲜文字符的8个左右的blocks来说，很容易将其扩展。没有表查找，没有正则表达式编译。只是基于Unicode字符块的快速范围检查。在

在C语言中，这也非常简单（如果您希望显著提高性能，只需少量工作即可匹配完全优化的库）：

^{pr2}$

Edit粗略浏览一下CPython实现，就会发现CPython对unicodedata模块使用了这种方法。也就是说，它是有效的，尽管你自己实现它相对容易。它仍然值得实现，因为您不必分配任何中间字符串，或者使用多余的字符串比较（这可能是unicodedata模块的主要开销）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

正则表达式匹配所有Hangul（韩文）字符和音节块

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >