Python中文
首页
教程
问答
标签
搜索
登录
注册
Python:调用Python obj时超过了最大递归深度
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我已经构建了一个爬虫程序,它必须在大约500万个页面上运行(通过增加url ID),然后解析包含我需要的信息的页面。</p> <p>在使用了一个运行在url上的算法(200K)并保存了好的和坏的结果之后,我发现I浪费了很多时间。我可以看到有一些返回的子标记,可以用来检查下一个有效的url。</p> <p>你可以很快地看到子任务(前几个“好ID”中的一个)</p> <pre><code>510000011 # +8 510000029 # +18 510000037 # +8 510000045 # +8 510000052 # +7 510000060 # +8 510000078 # +18 510000086 # +8 510000094 # +8 510000102 # +8 510000110 # etc' 510000128 510000136 510000144 510000151 510000169 510000177 510000185 510000193 510000201 </code></pre> <p>在爬行了大约20万个url之后,我知道我在浪费时间,需要优化它,所以我运行了一些统计数据,并构建了一个函数来检查url,同时将id增加到8\18\17\8(top returning subtrahends)等。</p> <p>这就是功能-</p> <pre><code>def checkNextID(ID): global numOfRuns, curRes, lastResult while ID < lastResult: try: numOfRuns += 1 if numOfRuns % 10 == 0: time.sleep(3) # sleep every 10 iterations if isValid(ID + 8): parseHTML(curRes) checkNextID(ID + 8) return 0 if isValid(ID + 18): parseHTML(curRes) checkNextID(ID + 18) return 0 if isValid(ID + 7): parseHTML(curRes) checkNextID(ID + 7) return 0 if isValid(ID + 17): parseHTML(curRes) checkNextID(ID + 17) return 0 if isValid(ID+6): parseHTML(curRes) checkNextID(ID + 6) return 0 if isValid(ID + 16): parseHTML(curRes) checkNextID(ID + 16) return 0 else: checkNextID(ID + 1) return 0 except Exception, e: print "somethin went wrong: " + str(e) </code></pre> <p>基本上要做的是-checkNextID(ID)得到我知道的第一个包含数据减8的ID,因此第一次迭代将匹配第一个“if isValid”子句(isValid(ID+8)将返回True)。</p> <p><strong>lastResult</strong>是一个变量,它保存最后一个已知的url id,因此我们将一直运行,直到numOfRuns</p> <p><strong>isValid()</strong>是一个函数,它获取一个ID+其中一个子数组,如果url包含我需要的内容,则返回True;如果url不包含我需要的数据,则返回False。</p> <p><strong>parseHTML</strong>是一个函数,它获取soup对象(curRes),解析所需的数据,然后将数据保存到csv,然后返回True。</p> <p>如果isValid()返回True,我们将调用parseHTML(),然后尝试检查下一个ID+子标记(通过调用checkNextID(ID+子标记),如果没有一个返回我要查找的内容,我将其增加1,然后再次检查,直到找到下一个有效的url。</p> <p>您可以看到剩下的代码<a href="http://pastebin.com/Vq9Zwpc9">here</a></p> <p>运行代码后,我得到了大约950~个好结果,突然出现了一个异常-</p> <blockquote> <p>"somethin went wrong: maximum recursion depth exceeded while calling a Python object"</p> </blockquote> <p>我可以在WireShark上看到scipt卡在id-510009541上(我的脚本是用510000003开始的),脚本尝试用这个id获取url几次,然后我注意到错误并停止了它。</p> <p>我真的很兴奋看到我得到了同样的结果,但是比我的旧脚本快25-40倍,HTTP请求更少,非常精确,1000个好结果我只错过了1个结果,这是我发现的,不可能重复5百万次,我的旧脚本运行了30个小时,当我的新脚本在5-10分钟内给出960个结果时,我得到了14-15K个结果。</p> <p>我读到了堆栈限制,但是对于我试图用Python实现的算法必须有一个解决方案(我不能回到我以前的<em>“算法”</em>,它永远不会结束)。</p> <p>谢谢!</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>可以通过以下方法增加堆栈的容量:</p> <pre><code>import sys sys.setrecursionlimit(10000) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
尽管Python中的所有内容都是引用,为什么Python导师在没有指针的列表中绘制字符串和整数?
2 回答
尽管python中的表达式为false,但循环仍在运行
8 回答
尽管python代码正确,但从nifi ExecuteScript处理器获取语法错误
8 回答
尽管Python在Neovim中工作得很好,但插件不能识别Neovim中的Python主机
9 回答
尽管python字典包含了大量的条目,但它并没有增长
8 回答
尽管python说模块存在,为什么我会得到这个消息?
3 回答
尽管setuptools和控制盘是最新的,但无法识别singleversionexternallymanaged
1 回答
尽管stdout和stderr重定向,但未捕获错误消息
5 回答
尽管Tensorboard的事件太大,但Tensorboard的步骤太少了
2 回答
尽管tkinter上的变量已更改,但显示未更改
5 回答
尽管try/except使用Python进行单元测试时出现断言错误
2 回答
尽管URL是sam,但仍会抛出“达到最大重定向”
2 回答
尽管url有效,Pandas仍读取url的\u csv错误
9 回答
尽管while中存在时间延迟,但LINUX线程的CPU利用率为100%(1)
6 回答
尽管x0在范围内,Scipy优化仍会引发ValueError
6 回答
尽管xpath正确,但使用selenium单击链接仍不起作用
3 回答
尽管下载了ffmpeg并设置了路径变量python,但没有后端错误
1 回答
尽管下载了i,但找不到型号“fr”
2 回答
尽管下载了plotnine包,但未获取名为“plotnine”的模块时出错
5 回答
尽管为所有行指定了权重,网格(0)仍不起作用
8 回答