用Python计算大型文本中多词术语的频率问题的回答

用Python计算大型文本中多词术语的频率

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一本字典，里面有将近一百万个多词词汇（包含空格的词汇）。这看起来像 <pre class="lang-py prettyprint-override"><code>[..., 'multilayer ceramic', 'multilayer ceramic capacitor', 'multilayer optical disk', 'multilayer perceptron', ...] </code></pre> 我想用千兆字节的文本来计算它们的频率 作为一个小例子，考虑在维基百科页面中计算这四个多词表达式： <pre class="lang-py prettyprint-override"><code>payload = {'action': 'query', 'titles': 'Ceramic_capacitor', 'explaintext':1, 'prop':'extracts', 'format': 'json'} r = requests.get('https://en.wikipedia.org/w/api.php', params=payload) sampletext = r.json()['query']['pages']['9221221']['extract'].lower() sampledict = ['multilayer ceramic', 'multilayer ceramic capacitor', 'multilayer optical disk', 'multilayer perceptron'] termfreqdic = {} for term in sampledict: termfreqdic[term] = sampletext.count(term) print(termfreqdic) </code></pre> 这给出了类似于<code>{'multilayer ceramic': 7, 'multilayer ceramic capacitor': 2, 'multilayer optical disk': 0, 'multilayer perceptron': 0}</code>的结果，但如果字典包含一百万个条目，这似乎是次优的 我尝试过使用非常大的正则表达式： <pre class="lang-py prettyprint-override"><code>termlist = [re.escape(w) for w in open('termlistfile.txt').read().strip().split('\n')] termregex = re.compile(r'\b'+r'\b|\b'.join(termlist), re.I) termfreqdic = {} for i,li in enumerate(open(f)): for m in termregex.finditer(li): termfreqdic[m.group(0)]=termfreqdic.get(m.group(0),0)+1 open('counted.tsv','w').write('\n'.join([a+'\t'+v for a,v in termfreqdic.items()])) </code></pre> 这是非常慢的（在最近的i7上，1000行文字需要6分钟）。但是如果我用<code>regex</code>而不是<code>re</code>替换前两行，则每1000行文本的速度会下降到12秒左右，这对于我的需求来说仍然非常缓慢： <pre class="lang-py prettyprint-override"><code>termlist = open(termlistfile).read().strip().split('\n') termregex = regex.compile(r"\L<options>", options=termlist) ... </code></pre> 请注意，这并不完全符合我的要求，因为一个术语可能是另一个术语的子术语，如示例“多层陶瓷”和“多层陶瓷电容器”（也不包括<a href="https://stackoverflow.com/questions/47663870/find-multi-word-terms-in-a-tokenized-text-in-python">Find multi-word terms in a tokenized text in Python</a>中的第一标记化方法） 这看起来像是一个常见的序列匹配问题，无论是在文本语料库中还是在遗传字符串中，都必须有众所周知的解决方案。也许可以用一些<a href="https://en.wikipedia.org/wiki/Trie" rel="nofollow noreferrer">trie</a>字来解决这个问题（我不介意术语表的初始编译速度太慢）？唉，我似乎没有找到合适的术语。也许有人能给我指出正确的方向

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

用Python计算大型文本中多词术语的频率

1 个回答

相关Python问题