如何从包含Dari单词的文件中删除英语单词？

2条回答

网友

1楼 · 编辑于 2024-10-01 11:34:06

您可以安装并使用nltk库。这将为您提供英语单词列表以及将每行拆分为单词的方法：

from nltk.tokenize import word_tokenize
from nltk.corpus import words

english = words.words()

with open('Dari.pos') as f_input, open('DariNER.txt', 'w') as f_output:
    for line in f_input:
        f_output.write(' '.join(word for word in word_tokenize(line) if word.lower() not in english) + '\n')

安装nltk后，应运行：

^{pr2}$

并使用它来下载words

网友

2楼 · 编辑于 2024-10-01 11:34:06

infile = "Dari.pos"
outfile = "Cleaned_English_Tags.txt"

delete_list = ['NOUN', 'ADJ', 'PUNCT', 'INTJ', 'ADV', 'VERB', 'X', 'CCONJ', 'ADP', 'AUX', 'SCONJ', 'PRON', 'DET', 'NUM', 'AU']
fin = open(infile)
fout = open(outfile, 'w')

for line in fin:
    for word in delete_list:
        line = line.replace(word, " ")
    fout.write(line)

fin.close()
fout.close()

编程相关推荐

Jboss 4.2.1 GA java。lang.OutOfMemoryError:永久空间
java将ActiveMQResourceAdapter绑定到Weblogic中的自定义工作管理器
java如果计时器落后于计划怎么办
java从DNS获取完整的区域记录，DNSJava不会返回所有记录
java NoClassDefFoundError:com/google/common/reflect/TypeToken
java将列表拆分为组
java绘制图像的形状
java JAR文件未打开
无法从子WebApplicationContext访问根ApplicationContext中配置的java Spring拦截器
循环的java Android对话框是否未执行？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从包含Dari单词的文件中删除英语单词？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >