我正在使用Nltk和Scikit来学习做一些文本处理。我有一个包含句子的数据集,其中一些句子用法语和英语解释了情况(法语部分重复),我想删除法语部分。以下是我的一句话:
“全球快车的出处是为了了解日本的天气状况和天气状况由于襟翼问题,从日本东京飞往多瓦尔的环球快线机组人员不得不在跑道上停下来,可以降落在跑道上。紧急服务没有要求飞机降落,没有事故延误大约几分钟,m d y区域报告记录s“
我想删除所有法语单词。到目前为止,我已经尝试过遵循代码,但结果还不够好。在
x=sentence
x=x.split()
import langdetect
from langdetect import detect
for word in x:
lang=langdetect.detect(word)
if lang=='fr':
print(word)
x.remove(word)
以下是我的输出:
^{pr2}$这是个好方法吗?如何提高它的性能,以达到更好的效果。在
语言检测通常需要更长的句子来完成一项体面的工作。一两个简短的词可能还不够。想想上面
Dorval a d effectuer
中的a
。a
本身是法语还是英语?是法语吗?在我还需要再次检查这个库是否可以处理数据中的非标准法语(没有重音符号、撇号、缺少字母等等),方法是检查库对较长字符串的检测结果。有可能图书馆只擅长于找出更标准的法语是法语。例如,
d'un problème
与您的数据:d un probl me
。在另请参阅这个问题,以了解您可以限制可能的语言集的其他方法:Python langdetect: choose between one language or the other only
相关问题 更多 >
编程相关推荐