拆分和计算列元素的频率问题的回答

拆分和计算列元素的频率

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

试着做如下的事情 <pre><code>from collections import Counter def most_common_words(labels, quantity): """ Split all words present in list and count how many times it is repeated in the list. Args: labels (list): List of strings to split. quantity (int): Amount of most common words to return. Returns: counter (liste): List of words splitted with its number of ocurrences. """ #words = [i.split(" ", 3)[0] for i in labels] #counter = Counter(words).most_common(quantity) words = [(re.split('(;|,|-| |\*|\n)', i)) for i in labels] counter = Counter(x for xs in words for x in set(xs)).most_common(quantity) df = pd.DataFrame(counter, columns=["Word", "Occurence number"])\ .sort_values(by="Occurence number", ascending=True) df = df[df["Word"] != " "].reset_index(drop=True) return df df_most_common_words = most_common_words(data_copy["col"].tolist(), 20) print(df_most_common_words) </code></pre> 输出 <pre><code> Word Occurence number 19 Repetition 8946 18 Government 9159 17 SACMEQ: 11502 16 Gross 12993 15 PIAAC: 20874 14 PISA: 21087 13 TIMSS: 21300 12 Africa 21513 11 Enrolment 21939 </code></pre> 在您的情况下，您可以执行以下操作 <pre><code>col_a = ['A', 'B', 'A-E', 'a', 'A;e', 'B;e', 'A;B', 'C A', 'As'] df = pd.DataFrame(col_a, columns=['col_a']) df col_a 0 A 1 B 2 A-E 3 a 4 A;e 5 B;e 6 A;B 7 C A 8 As df['col_a'] = df['col_a'].str.replace('-',' ').str.replace(';',' ') df col_a 0 A 1 B 2 A E 3 a 4 A e 5 B e 6 A B 7 C A 8 As df_most_common_words = most_common_words(df["col_a"].tolist(), 20) df_most_common_words Word Occurence number 0 E 1 1 a 1 2 C 1 3 As 1 4 e 2 5 B 3 6 A 5 </code></pre>

拆分和计算列元素的频率

1 个回答

相关Python问题