将韩语单词分为单独的音节C++ + Python

2024-06-01 09:34:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我在试着把一个韩国语字符串分成单独的音节。 因此输入将是一个类似“서울특별시”的字符串和结果“서”、“울”、“특”、“별”、“시”。 我已经尝试了C++和Python来分割一个字符串,但是结果是一系列的?或空白(字符串本身可以在屏幕上正确打印)。 在c++中,我首先将输入字符串初始化为string korean="서울특별시",然后使用string::iterator遍历字符串并打印每个单独的组件。 在Python中,我刚刚使用了一个简单的for循环。在

我想知道有没有办法解决这个问题。谢谢。在


Tags: 字符串forstring屏幕组件空白音节korean
1条回答
网友
1楼 · 发布于 2024-06-01 09:34:40

我一点都不懂韩语,也不能对音节的划分发表评论,但在Python2中有以下作品:

# -*- coding: utf-8 -*- 
print(repr(u"서울특별시"))
print(repr(u"서울특별시"[0]))

输出:

^{pr2}$

在python3中,Unicode字符串不需要u。在

输出是字符串中字符的unicode值,这意味着在本例中字符串已被正确切分。我用repr打印它们的原因是,我使用的终端中的字体无法表示它们,因此没有repr我只能看到方形框。但这纯粹是一个呈现问题,repr证明了数据是正确的。在

因此,如果您知道如何在逻辑上识别音节,那么您可以使用repr来查看代码实际做了什么。Unicode NFC听起来是一个很好的识别它们的候选者(多亏了R.Martinho Fernandes),而unicodedata.normalize()就是实现这一点的方法。在

相关问题 更多 >