Python Web Scraper(URLSub\u URL输出)

2024-09-28 22:26:02 发布

您现在位置:Python中文网/ 问答频道 /正文

在过去的几天里,我一直在想如何在没有大量代码的情况下做到这一点,我在上面找不到任何东西,google,Stack Overflow等等

我正在建立一个非常先进的网页刮板,我希望输出是在一个树形布局,例如:

for aurl in aurls:
    print aurl
    burls = urlScraper(curl, scrape, savePgs)
    for burl in burls:
        print burl
        curls = urlScraper(burl, scrape, savePgs)
        (This would keep repeating A Lot.)

计划输出如下:

^{pr2}$

我要一直到这棵树的尽头。我觉得我想得太多了,这将是一个类似while循环的东西。我已经构建了web抓取API来返回当前正在抓取的url的深度、url以及其他此时不重要的因素。在

我已经做了一个小函数来打印脚本的深度:

def depthIndent(depth):
    depthLevel = ""
    if depth == 1:
        depthLevel = depthLevel + ">"
        return str(depthLevel)
    else:
        for i in range(0,depth):
            depthLevel = depthLevel + "    "
    return str(depthLevel) + "-"

我只需要能够运行for循环,这样它就不会结束,直到它碰到树的结尾! 任何帮助都是高度赞赏的,示例代码将是很好的,但简短的说明也将是好的,这是恼人的工作在一个错误整天!在

总结: 我需要在给定的深度显示文本,我无法检测深度。我需要打印给定的输出,直到树的末尾。在

谢谢你


Tags: 代码inurlforreturnprintscrapedepth