使用NLTK regexetkenizer标记文本并将其写入CSV

import nltk import re from nltk.corpus.reader.plaintext import PlaintextCorpusReader from nltk import FreqDist import math from decimal import * from nltk.tokenize import RegexpTokenizer, WhitespaceTokenizer import csv #this imports the text files in the folder into corpus called speeches corpus_root = '/Users/root...' speeches = PlaintextCorpusReader(corpus_root, '.*\.txt') print "Finished importing corpus" tokenizer = RegexpTokenizer(r'\w+') raw = speeches.raw().lower() tokens = tokenizer.tokenize(raw) tgs = nltk.trigrams(tokens) fdist = nltk.FreqDist(tgs) minscore = 200 numwords = len(raw) c = csv.writer(open("TPNngrams.csv", "wb")) for k,v in fdist.items(): if v > minscore: rf = Decimal(v)/Decimal(numwords) firstword, secondword, thirdword = k trigram = firstword + " " + secondword + " " + thirdword results = trigram,v,rf c.writerow(results) print firstword, secondword, thirdword, v, rf

1条回答

网友

1楼 · 发布于 2024-10-01 05:02:31

要修复regex标记器，请将标记器替换为以下内容：

text = "We have 15 billion dollars in gold in our treasury; we don't own an ounce."
tokenizer = RegexpTokenizer(r'(\w|\')+')
tokens = tokenizer.tokenize(text)
# ['We', 'have', '15', 'billion', 'dollars', 'in', 'gold', 'in', 'our', 'treasury', 'we', "don't", 'own', 'an', 'ounce']

它处理连词。在

我不确定错误是在哪里抛出的（也许可以提供更多信息？）但我猜你在导入Python不知道如何处理的奇怪字符。尝试添加

^{pr2}$

在你的.py文件的最上面。在

相关问题更多 >

编程相关推荐

热门问题

热门文章