用scrapy递归地抓取面包屑链接

2024-09-30 12:21:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我是python和scrapy的新手。对于一个大学项目,我需要在autoscout24.de域(德语)上刮取汽车分类广告。在

下面是一个示例站点:http://ww3.autoscout24.de/classified/268487991?asrc=fa|as&testvariant=articles_t20&tierlayer=fa

我希望crawspider递归地获取“next offer”('nächstes Angebot'),但似乎无法从breadcrumb中提取链接。网站有趣的部分应该是:

<div class="floatRight">
                    <span class="linkInvisible">
                        <span class="floatLeft">‹</span>
                        <span class="floatLeft marginLeftXS">
                            vorheriges Angebot
                        </span>
                    </span>


                <p class="floatLeft marginLeftXS">|</p>   


                    <a id="breadCrumbNextOffer" ng-click="breadCrumb.nextOffer('http://ww3.autoscout24.de/classified/266709231')">
                        <span class="floatLeft marginLeftXS">
                            nächstes Angebot
                        </span>
                        <p class="floatLeft marginLeftXS">›</p>
                    </a>

            </div>

我想要里面的链接面包屑(…)

我试过了:

^{pr2}$

但这只会擦掉起始网址,似乎找不到下一个链接。在

我将非常感谢你的任何意见。:)


Tags: divhttp链接declassfascrapyspan

热门问题