<div class="region size2of3">
<h2>Mumbai</h2>
<strong>Fort</strong>
<div>Elphinstone building, Horniman Circle,</div>
<div>Veer Nariman Road, Fort</div>
<div>Mumbai 400001</div>
<div>Timings: 08:00-00:30 hrs (Mon-Sun)</div>
<div><br></div>
</div>
我想在解析时排除“Timings:08:00-00:30 hrs(Mon-Sun)”div标记。在
我的代码是:
^{pr2}$
我将使用^{} XPath function 来获取
div
元素以“timeings”开头的文本:请注意,页面的HTML结构不容易区分彼此之间的位置-没有特定于位置的容器可以迭代。在本例中,我将找到每个
^{pr2}$h2
或strong
标记并使用following-sibling
,例如Scrapy Shell:还要注意,如果要提取时间范围值,可以使用^{} :
另外,确保循环体中有
yield
(请参阅您发布的代码)。在如果要排除
Timings
并获取其余位置描述,请使用:相关问题 更多 >
编程相关推荐