如何在python中使用regex检测中文、日语和韩语字符。我尝试过很多方法,包括manyrecommendationson堆栈溢出,但都没有成功。在
字符串示例:
word_string = "direct tv カルバンクライン 評価 カルバンクライン 価格 赤ジャージ アディダス nike エアリフト dg コート dg ネクタイ fresh 香水 フランス fresh 香水 ハワイ 1directtvcom ビームス バンズ コラボ httpwww1directtvcom 厚底コンバース 通販 フルラ バッグ 値段 プーマ専門店 ドクターマーチン ショート フルラ バッグ 新作 2015 スタッズグラディエーターサンダル モード・エ・ジャコモ mode et jacomo parker パーカー 万年筆 デュオフォールド"
例1:
^{pr2}$示例2:
>> print re.findall(u'[\u4E00-\u9FFF\u4E00-\u9FFF\uF900-\uFAFF]+', word_string)
[]
我甚至尝试过使用unicodedata
或unicodescript
之类的库来遍历字符并检测每个字符的语言,但这会很快变得非常难看。在
有人知道检查中日韩字符的可靠方法吗?希望有一些简单的正则表达式?在
如果您想让第二个示例正常工作,那么字符串应该是unicode出去。例如在
试过我的命令行。在
相关问题 更多 >
编程相关推荐