有没有更好的方法来查找列表中最常见的单词（仅限于Python）

3条回答

网友

1楼 · 编辑于 2024-10-02 22:31:48

这听起来像是一个糟糕的面试问题，可能是面试官期待某个答案的情况。听起来他/她没有清楚地解释他/她在问什么。在

您的解决方案是O(n)（其中n = len(words)），使用堆不会改变这一点。在

有更快的近似解。。。在

网友

2楼 · 编辑于 2024-10-02 22:31:48

函数调用和全局命名空间搜索的开销更大。在

您的stupid函数对单词列表中的每个元素进行2次函数调用。您的max调用中的第二个是完全可以避免的，即迭代dict的键，然后对于每个键使用dict.get查找值，当您可以迭代键值对时，这是一个明显的低效率。在

def stupid(words):
  freqs = {}
  for w in words:
    freqs[w] = freqs.get(w, 0) + 1
  return max(freqs, key=freqs.get)

def most_frequent(words):
  ## Build the frequency dict
  freqs = {}
  for w in words:
    if w in freqs:
      freqs[w] += 1
    else:
      freqs[w] = 1
  ## Search the frequency dict
  m_k = None
  m_v = 0
  for k, v in freqs.iteritems():
    if v > m_v:
      m_k, m_v = k, v
  return m_k, m_v

使用user1952500的单通建议，这在您的大型样本集上表现如何？在

^{pr2}$

对于多个最常见的值来说，这有一个小小的优点，即稳定。在

使用cd4{生成所有建议的样本：

def word_frequency_version1(words):
  """Petar's initial"""
  freqs = {}
  for w in words:
    freqs[w] = freqs.get(w, 0) + 1
  return max(freqs, key=freqs.get)

def word_frequency_version2(words):
  """Matt's initial"""
  ## Build the frequency dict
  freqs = {}
  for w in words:
    if w in freqs:
      freqs[w] += 1
    else:
      freqs[w] = 1
  ## Search the frequency dict
  m_k = None
  m_v = 0
  for k, v in freqs.iteritems():
    if v > m_v:
      m_k, m_v = k, v
  return m_k, m_v

def word_frequency_version3(words):
  """Noting max as we go"""
  freq = {}
  m_k = None
  m_v = 0
  for w in words:
    if w in freq:
      v = freq[w] + 1
    else:
      v = 1
    freq[w] = v
    if v > m_v:
      m_k = w
      m_v = v
  return m_k, m_v

from collections import Counter
def word_frequency_version4(words):
  """Built-in Counter"""
  c = Counter(words)
  return c.most_common()[0]


from multiprocessing import Pool
def chunked(seq,count):
  v = len(seq) / count
  for i in range(count):
    yield seq[i*v:v+i*v]

def frequency_map(words):
  freq = {}
  for w in words:
    if w in freq:
      freq[w] += 1
    else:
      freq[w] = 1
  return freq

def frequency_reduce(results):
  freq = {}
  for result in results:
    for k, v in result.iteritems():
      if k in freq:
        freq[k] += v
      else:
        freq[k] = v
  m_k = None
  m_v = None
  for k, v in freq.iteritems():
      if v > m_v:
        m_k = k
        m_v = v
  return m_k, m_v

# def word_frequency_version5(words,chunks=5,pool_size=5):
#   pool = Pool(processes=pool_size)
#   result = frequency_reduce(pool.map(frequency_map,chunked(words,chunks)))
#   pool.close()
#   return result

def word_frequency_version5(words,chunks=5,pool=Pool(processes=5)):
  """multiprocessing Matt's initial suggestion"""
  return frequency_reduce(pool.map(frequency_map,chunked(words,chunks)))

def word_frequency_version6(words):
  """Petar's one-liner"""
  return max(set(words),key=words.count)


import timeit
freq1 = timeit.Timer('func(words)','from __main__ import words, word_frequency_version1 as func; print func.__doc__')
freq2 = timeit.Timer('func(words)','from __main__ import words, word_frequency_version2 as func; print func.__doc__')
freq3 = timeit.Timer('func(words)','from __main__ import words, word_frequency_version3 as func; print func.__doc__')
freq4 = timeit.Timer('func(words)','from __main__ import words, word_frequency_version4 as func; print func.__doc__')
freq5 = timeit.Timer('func(words,chunks=chunks)','from __main__ import words, word_frequency_version5 as func; print func.__doc__; chunks=10')
freq6 = timeit.Timer('func(words)','from __main__ import words, word_frequency_version6 as func; print func.__doc__')

结果：

>>> print "n={n}, m={m}".format(n=len(words),m=len(set(words)))
n=692766, m=34464
>>> freq1.timeit(10)
"Petar's initial"
3.914874792098999
>>> freq2.timeit(10)
"Matt's initial"
3.8329160213470459
>>> freq3.timeit(10)
"Noting max as we go"
4.1247420310974121
>>> freq4.timeit(10)
"Built-in Counter"
6.1084718704223633
>>> freq5.timeit(10)
"multiprocessing Matt's initial suggestion"
9.7867341041564941

注意事项：

我用multiprocessing.Pool实例作为kwarg进行作弊，以达到计时目的，因为我想避免池的启动成本，timeit不允许您指定清理代码。这是在一个“四”cpu虚拟机上运行的，我确信对于输入数据和cpu计数的某些值，多处理将更快。在
大多数情况下，返回频率最高的单词，如果第一名出现平局，这可能是随机的。在
最高频率的近似值可能更快（使用采样），但将是近似值。在
对于n*m的大值，应忽略版本6（一行程序）。在

网友

3楼 · 编辑于 2024-10-02 22:31:48

from collections import Counter

word_counter = Counter(words)

word_counter是一个以单词为键、频率为值的字典，还有一个most_common()方法。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

有没有更好的方法来查找列表中最常见的单词（仅限于Python）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >