用python刮削时使用strip

2024-09-27 01:27:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我很难从我用scrapy抓取的数据中删除不需要的字符。在

示例数据:

'Premium Terraced Studio', '51 weeks (09/09/2017 - 31/08/2018) Room - Lease', '', '', '', '', '', '', 'Premium Plus Terraced Studio', '51 weeks (09/09/2017 - 31/08/2018) Room - Lease', '',
'', '', '',

它更乱,而且有新的线条,但我用了这个,这样就把它清理干净了:

[s.strip() for s in response.xpath('//div/div/table/tbody/tr/td/div/text()').extract()]

我也试过这个,但没什么用:

^{pr2}$

任何想法都是徒劳的!在


Tags: 数据div示例forplus字符线条scrapy
1条回答
网友
1楼 · 发布于 2024-09-27 01:27:42

您可以将filterNone一起使用,即:

some_list = list(filter(None, response.xpath('//div/div/table/tbody/tr/td/div/text()').extract()))

更新:

我通常使用lxml来解析html,下面是一个可以帮助您的示例:

^{pr2}$

输出:

51 weeks (09/09/2017 - 31/08/2018) Room - Student Lease
51 weeks (09/09/2017 - 31/08/2018) Room - Student Lease
51 weeks (09/09/2017 - 31/08/2018) Room - Student Lease
51 weeks (09/09/2017 - 31/08/2018) Room - Student Lease
...

相关问题 更多 >

    热门问题