我试图用Scrapy从新闻网站获取文章正文。在
import scrapy
import sys
import json
class ReutersPage(scrapy.Spider):
name = "reutersPage"
start_urls = [
'https://www.reuters.com/article/chile-sqm-stocks/lithium-miner-sqm-shares-up-2-7-pct-chile-court-clears-way-for-tianqi-stake-purchase-idUSC0N1OX01C'
]
def parse(self, response):
articleBody = response.css('div.StandardArticleBody_body::text').extract_first()
print('######## Article body ##########')
print(articleBody)
yield {
'body': articleBody
}
我尝试在div StandardArticleBody_body中获取文本,但总是得到无值。在
输出是
^{pr2}$
没有任何文本直接属于您选择的
div
,而是属于它的后代。选择器路径和::
之间的空格将获得所有子体的text
,而不仅仅是所选节点的文本。在试试这个
这样您就得到了
div
后代的所有文本。在相关问题 更多 >
编程相关推荐