有换行符和嵌套标记

for row in allrows: if row.select('td[2]/text()'): item['seconditem']=row.select('td[2]/text()').extract() elif row.select('td[2]/*/text()'): item['seconditem']=row.select('td[2]/*/text()').extract() elif row.select('td[2]/*/*/text()'): item['seconditem']=row.select('td[2]/*/*/text()').extract()

1条回答

网友

1楼 · 发布于 2024-10-05 15:27:01

可以使用XPath表达式中的string()函数在一个字符串中获取所有内部文本节点：

# nested.html - your second html snippet
# $scrapy shell "nested.html" 

In [1]: row = hxs.select('//tr')

In [2]: row.select('td[2]').select('string()').extract()
Out[2]: [u'   some other text  ']

In [3]: row.select('td[2]').select('string()').extract()[0]
Out[3]: u'   some other text  '

In [4]: row.select('td[3]').select('string()').extract()[0]
Out[4]: u'  \r\n   yet some text  \r\n     '

或//text()获取所有内部text节点：

^{pr2}$

和''.join(...)以获取字符串：

In [6]: ''.join(row.select('td[3]//text()').extract())
Out[6]: u' \r\n   yet some text  \r\n     '

相关问题更多 >

编程相关推荐

热门问题

热门文章

有换行符和嵌套标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >