Python：调用Python obj时超过了最大递归深度问题的回答

Python：调用Python obj时超过了最大递归深度

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我已经构建了一个爬虫程序，它必须在大约500万个页面上运行（通过增加url ID），然后解析包含我需要的信息的页面。 在使用了一个运行在url上的算法（200K）并保存了好的和坏的结果之后，我发现I浪费了很多时间。我可以看到有一些返回的子标记，可以用来检查下一个有效的url。 你可以很快地看到子任务（前几个“好ID”中的一个） <pre><code>510000011 # +8 510000029 # +18 510000037 # +8 510000045 # +8 510000052 # +7 510000060 # +8 510000078 # +18 510000086 # +8 510000094 # +8 510000102 # +8 510000110 # etc' 510000128 510000136 510000144 510000151 510000169 510000177 510000185 510000193 510000201 </code></pre> 在爬行了大约20万个url之后，我知道我在浪费时间，需要优化它，所以我运行了一些统计数据，并构建了一个函数来检查url，同时将id增加到8\18\17\8（top returning subtrahends）等。 这就是功能- <pre><code>def checkNextID(ID): global numOfRuns, curRes, lastResult while ID < lastResult: try: numOfRuns += 1 if numOfRuns % 10 == 0: time.sleep(3) # sleep every 10 iterations if isValid(ID + 8): parseHTML(curRes) checkNextID(ID + 8) return 0 if isValid(ID + 18): parseHTML(curRes) checkNextID(ID + 18) return 0 if isValid(ID + 7): parseHTML(curRes) checkNextID(ID + 7) return 0 if isValid(ID + 17): parseHTML(curRes) checkNextID(ID + 17) return 0 if isValid(ID+6): parseHTML(curRes) checkNextID(ID + 6) return 0 if isValid(ID + 16): parseHTML(curRes) checkNextID(ID + 16) return 0 else: checkNextID(ID + 1) return 0 except Exception, e: print "somethin went wrong: " + str(e) </code></pre> 基本上要做的是-checkNextID（ID）得到我知道的第一个包含数据减8的ID，因此第一次迭代将匹配第一个“if isValid”子句（isValid（ID+8）将返回True）。 lastResult是一个变量，它保存最后一个已知的url id，因此我们将一直运行，直到numOfRuns isValid（）是一个函数，它获取一个ID+其中一个子数组，如果url包含我需要的内容，则返回True；如果url不包含我需要的数据，则返回False。 parseHTML是一个函数，它获取soup对象（curRes），解析所需的数据，然后将数据保存到csv，然后返回True。 如果isValid（）返回True，我们将调用parseHTML（），然后尝试检查下一个ID+子标记（通过调用checkNextID（ID+子标记），如果没有一个返回我要查找的内容，我将其增加1，然后再次检查，直到找到下一个有效的url。 您可以看到剩下的代码<a href="http://pastebin.com/Vq9Zwpc9">here</a> 运行代码后，我得到了大约950~个好结果，突然出现了一个异常- <blockquote> "somethin went wrong: maximum recursion depth exceeded while calling a Python object" </blockquote> 我可以在WireShark上看到scipt卡在id-510009541上（我的脚本是用510000003开始的），脚本尝试用这个id获取url几次，然后我注意到错误并停止了它。 我真的很兴奋看到我得到了同样的结果，但是比我的旧脚本快25-40倍，HTTP请求更少，非常精确，1000个好结果我只错过了1个结果，这是我发现的，不可能重复5百万次，我的旧脚本运行了30个小时，当我的新脚本在5-10分钟内给出960个结果时，我得到了14-15K个结果。 我读到了堆栈限制，但是对于我试图用Python实现的算法必须有一个解决方案（我不能回到我以前的“算法”，它永远不会结束）。 谢谢！

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

Python：调用Python obj时超过了最大递归深度

1 个回答

相关Python问题