转移矩阵中有多个NGRAM，概率不加1问题的回答

转移矩阵中有多个NGRAM，概率不加1

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正试图找到一种方法，使用python和numpy为给定文本使用单图、双图和三元图来生成转换矩阵。每行的概率应等于一。我先用bigrams做了这件事，效果很好： <pre><code>distinct_words = list(word_dict.keys()) dwc = len(distinct_words) matrix = np.zeros((dwc, dwc), dtype=np.float) for i in range(len(distinct_words)): word = distinct_words[i] first_word_idx = i total = 0 for bigram, count in ngrams.items(): word_1, word_2 = bigram.split(" ") if word_1 == word: total += count for bigram, count in ngrams.items(): word_1, word_2 = bigram.split(" ") if word_1 == word: second_word_idx = index_dict[word_2] matrix[first_word_idx,second_word_idx] = count / total </code></pre> 但现在我想加上单格图和三角形图，并对它们的概率（三角形图*.6，双格图*.2，单格图*.2）进行加权。我不认为我的python非常简洁，这是一个问题，但我也不知道如何使用多个n-gram（和权重，尽管诚实地说权重是次要的），这样我仍然可以得到任何给定行的所有概率加起来为一 <pre><code>distinct_words = list(word_dict.keys()) dwc = len(distinct_words) matrix = np.zeros((dwc, dwc), dtype=np.float) for i in range(len(distinct_words)): word = distinct_words[i] first_word_index = i bi_total = 0 tri_total=0 tri_prob = 0 bi_prob = 0 uni_prob = word_dict[word] / len(distinct_words) if i < len(distinct_words)-1: for trigram, count in trigrams.items(): word_1, word_2, word_3 = trigram.split() if word_1 + word_2 == word + distinct_words[i+1]: tri_total += count for trigram, count in trigrams.items(): word_1, word_2, word_3 = trigram.split() if word_1 + word_2 == word + distinct_words[i+1]: second_word_index = index_dict[word_2] tri_prob = count/bigrams[word_1 + " " + word_2] for bigram, count in bigrams.items(): word_1, word_2 = bigram.split(" ") if word_1 == word: bi_total += count for bigram, count in bigrams.items(): word_1, word_2 = bigram.split(" ") if word_1 == word: second_word_index = index_dict[word_2] bi_prob = count / bi_total matrix[first_word_index,second_word_index] = (tri_prob * .4) + (bi_prob * .2) + (word_dict[word]/len(word_dict) *.2) </code></pre> 我正在阅读<a href="http://www.phon.ox.ac.uk/jcoleman/old_SLP/Lecture_6/trigram-modelling.html" rel="nofollow noreferrer">this lecture</a>中关于如何设置概率矩阵的内容，这似乎是有意义的，但我不确定我错在哪里 如果有帮助的话，我的n_图就是从这里来的——它只是生成一个n_图作为字符串及其计数的字典 <pre><code>def get_ngram(words, n): word_dict = {} for i, word in enumerate(words): if i > (n-2): n_gram = [] for num in range(n): index = i - num n_gram.append(words[index]) if len(n_gram) > 1: formatted_gram = "" for word in reversed(n_gram): formatted_gram += word + " " else: formatted_gram = n_gram[0] stripped = formatted_gram.strip() if formatted_gram else n_gram[0] if stripped in word_dict: word_dict[stripped] += 1 else: word_dict[stripped] = 1 return word_dict </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

转移矩阵中有多个NGRAM，概率不加1

1 个回答

相关Python问题