Numpy中稀疏双邻接矩阵的高效构造

603,politics,trees,pics 604,Metal,AskReddit,tattoos,redditguild,WTF,cocktails,pics,funny,gaming,Fitness,mcservers,TeraOnline,GetMotivated,itookapicture,Paleo,trackers,Minecraft,gainit 605,politics,IAmA,AdviceAnimals,movies,smallbusiness,Republican,todayilearned,AskReddit,WTF,IWantOut,pics,funny,DIY,Frugal,relationships,atheism,Jeep,Music,grandrapids,reddit.com,videos,yoga,GetMotivated,bestof,ShitRedditSays,gifs,technology,aww

2条回答

网友

1楼 · 编辑于 2024-09-30 00:31:57

首先，您可以将内部for替换为以下内容：

reddit_idx = np.nonzero(np.in1d(reddits_list,row))[0]
sl = slice(i,i+len(reddit_idx))
cols[sl] = user_idx
rows[sl] = reddit_idx
i = sl.stop

使用nonzero(in1d())查找匹配项看起来不错，但我还没有探索其他替代方法。另一种通过切片赋值的方法是extend列表，但这可能较慢，尤其是对于许多行。在

构建行时，cols是迄今为止最慢的部分。对csr_matrix的调用是次要的。在

由于行（用户）比subreddit多很多，因此可能值得为每个subreddit收集一个用户id列表。您已经在一个集合中收集了subreddits。相反，您可以在默认字典中收集它们，然后从中构建矩阵。当在你的3条线上测试时，它的速度明显更快。在

^{pr2}$

网友

2楼 · 编辑于 2024-09-30 00:31:57

睡不着，最后一件事。。。我可以用这种方式把时间缩短到10秒，最后：

import numpy as np
from scipy.sparse import csr_matrix 

user_ids = []
subreddit_ids = []
subreddits = {}
i=0
with open("reddit_user_posting_behavior.csv", 'r') as f:
    for line in f:
        for sr in line.rstrip().split(",")[1:]: 
            if sr not in subreddits: 
                subreddits[sr] = len(subreddits)
            user_ids.append(i)
            subreddit_ids.append(subreddits[sr])
        i+=1

adj = csr_matrix( 
    ( np.ones((len(userids),)), (np.array(subreddit_ids),np.array(user_ids)) ), 
    shape=(len(subreddits), i) )

相关问题更多 >

编程相关推荐

热门问题

热门文章