回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我试图将这个CSV文件加载到一个稀疏的numpy矩阵中,这个矩阵将表示这个用户的双相邻矩阵到subreddit二部图:<a href="http://figshare.com/articles/reddit_user_posting_behavior/874101" rel="nofollow">http://figshare.com/articles/reddit_user_posting_behavior/874101</a></p>
<p>下面是一个示例:</p>
<pre><code>603,politics,trees,pics
604,Metal,AskReddit,tattoos,redditguild,WTF,cocktails,pics,funny,gaming,Fitness,mcservers,TeraOnline,GetMotivated,itookapicture,Paleo,trackers,Minecraft,gainit
605,politics,IAmA,AdviceAnimals,movies,smallbusiness,Republican,todayilearned,AskReddit,WTF,IWantOut,pics,funny,DIY,Frugal,relationships,atheism,Jeep,Music,grandrapids,reddit.com,videos,yoga,GetMotivated,bestof,ShitRedditSays,gifs,technology,aww
</code></pre>
<p>共有876961行(每个用户一个)和15122个子编,共有8495597个用户到子编程序的关联。在</p>
<p>下面是我现在掌握的代码,在我的MacBook Pro上运行需要20分钟:</p>
^{pr2}$
<p>似乎很难相信这是如此之快。。。将82MB文件加载到列表列表中需要5秒,但构建稀疏矩阵需要200倍。我该怎么做才能加快速度?有没有一些文件格式,我可以转换成这个CSV在不到20分钟,将导入更快?我在这里做的手术显然很昂贵,不好吗?我尝试过构建一个稠密矩阵,并尝试创建一个<code>lil_matrix</code>和一个<code>dok_matrix</code>,一次分配一个<code>1</code>的矩阵,但速度并不快。在</p>