我是一个无知的学生,在我的硕士论文中,我必须使用Python和Jupyter笔记本修复KWIC(上下文中的关键字)/一致性分析。我们必须用“数字转型”的词汇创建一本词典。到目前为止,我们已经创建了两个文件(.txt),其中包含与数字转换相关的单个和多个关键字(总共300字)
然而,为了验证这些与数字转换相关,我们必须使用pyton/jupyther笔记本进行KWIC分析。即:
关键字前五个单词-关键字-关键字后五个单词
我已经解决了如何在我的语料库(大约50.txt文件)上测试单个单词的问题
import nltk
from nltk.corpus import PlaintextCorpusReader
corpus_root = r'C:\Users\Gebruiker\Dropbox\MSc Change Chris\Master Thesis\Data\Missing files\Test'
wordlists = PlaintextCorpusReader(corpus_root, '.*', encoding='latin1')
corpus_tokens = wordlists.words()
然后我可以逐字逐句地做这个过程:
from nltk.text import Text
t = Text(corpus_tokens)
t.concordance('digital transformation',lines=50)
有人知道如何在我的2.txt文件中的所有关键字中使用此功能,并创建一个长列表,其中每个关键字都列出了大约50次,最好是在Excel文件中
目前没有回答
相关问题 更多 >
编程相关推荐