将KWIC/NLTK的一致性函数用于语料库上的整个词典

2024-06-26 00:04:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我是一个无知的学生,在我的硕士论文中,我必须使用Python和Jupyter笔记本修复KWIC(上下文中的关键字)/一致性分析。我们必须用“数字转型”的词汇创建一本词典。到目前为止,我们已经创建了两个文件(.txt),其中包含与数字转换相关的单个和多个关键字(总共300字)

然而,为了验证这些与数字转换相关,我们必须使用pyton/jupyther笔记本进行KWIC分析。即:

关键字前五个单词-关键字-关键字后五个单词

我已经解决了如何在我的语料库(大约50.txt文件)上测试单个单词的问题

import nltk
from nltk.corpus import PlaintextCorpusReader
corpus_root = r'C:\Users\Gebruiker\Dropbox\MSc Change Chris\Master Thesis\Data\Missing files\Test'
wordlists = PlaintextCorpusReader(corpus_root, '.*', encoding='latin1')
corpus_tokens = wordlists.words()

然后我可以逐字逐句地做这个过程:

from nltk.text import Text
t = Text(corpus_tokens)
t.concordance('digital transformation',lines=50)

有人知道如何在我的2.txt文件中的所有关键字中使用此功能,并创建一个长列表,其中每个关键字都列出了大约50次,最好是在Excel文件中


Tags: 文件fromimporttxt笔记本数字root关键字