我想为一个大型语料库生成术语频率和文档频率。有一些图书馆在这样做,但它们没有我想要的那么灵活。这是我目前正在做的,但只有一个过程。如何使用多处理来加速此练习?谢谢您!你知道吗
#txtfiles is a list of file paths
def get_tf_df(txtfiles, tf_dict, df_dict):
for txtfile in txtfiles:
tokens = get_tokens(txtfile)
for t in tokens:
update tf_dict (I know this part)
update df_dict (I know this part)
return tf_dict, df_dict
您可以使用pool工作进程和
Manager
实例来管理对工作进程之间共享的tf_dict
和df_dict
字典的访问:相关问题 更多 >
编程相关推荐