无法从父节点和子节点/标记中获取文本

<span class="location"> Mandarin Oriental Hotel <a class="" href="/search-results/Jalan+Pinang%252C+Kuala+Lumpur+City+Centre%252C+50088+Kuala+Lumpur%252C+Wilayah+Persekutuan./?state=Kuala+Lumpur" itemprop="addressRegion" title="Jalan Pinang, Kuala Lumpur City Centre, 50088 Kuala Lumpur, Wilayah Persekutuan."> Jalan Pinang, Kuala Lumpur City Centre, 50088 Kuala Lumpur, Wilayah Persekutuan. </a> , <a class="" href="/search-results/?neighbourhood=Kuala+Lumpur&state=Kuala+Lumpur" title="Kuala Lumpur"> Kuala Lumpur </a> , <a class="" href="/search-results/?state=Kuala+Lumpur" title="Kuala Lumpur"> Kuala Lumpur </a> <span class="" itemprop="postalCode"> 50088 </span> </span>

2条回答

网友

1楼 · 编辑于 2024-09-24 00:26:40

使用response.css("span.location ::text").extract_first()只得到第一个文本，因此可以尝试调用response.css("span.location ::text").extract()，然后将其连接起来。在

也可以尝试获取整个父元素并从中删除标记：

from w3lib.html import remove_tags

data = response.css('span.location').get()
if not data:
    return
result = remove_tags(data)

网友

2楼 · 编辑于 2024-09-24 00:26:40

尝试使用以下代码获取每个span的字符串表示形式：

for entry in response.xpath("//div[@class='entry']"):
    print(entry.xpath("normalize-space(./span[@class='location'])").extract_first())

相关问题更多 >

编程相关推荐

热门问题

热门文章