色度复合语言检测器

2024-05-18 08:43:58 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用chromium compact语言检测器来检测语言，但它无法检测字符串中的日语。在

text = '1/15 HR Div.Q&CS Dept. 全体MTG 開催
1月15日(水)、赤溜オーディトリアムにてHR Div.Q&CS Dept.の全体MTGが開催されました。 ' 

cld.detect(smart_str(text), pickSummaryLanguage=True, removeWeakMatches=False)

output: ('ENGLISH', 'en', True, 11, [('ENGLISH', 'en', 100, 0.8103727714748784)])

欢迎提出建议。在

Tags：字符串 text div 语言 true english hr cs

1条回答

网友

1楼 · 发布于 2024-05-18 08:43:58

您可能需要首先将该日语字符串编码为UTF8，例如。试试这个：

import codecs
import cld
cld.detect(codecs.getencoder('UTF-8')(u'1/15 HR Div.Q&CS Dept. 全体MTG 開催1月15日(水)、赤溜オーディトリアムにてHR Div.Q&CS Dept.の全体MTGが開催されました。 ')[0])

我想cld不能检测到日语。它的新版本称为cld2。请在此处检查：https://code.google.com/p/cld2/wiki/CLD2FullVersion

色度复合语言检测器

相关问题更多 >

编程相关推荐

热门问题

热门文章

色度复合语言检测器

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >