scrapy的ItemLoader的基本库
itemloaders的Python项目详细描述
itemloaders是一个帮助您从HTML和XML源收集数据的库。在
从web页面提取数据非常方便,因为它支持 使用CSS和XPath选择器提取数据。在
当您需要标准化来自多个源的数据时,它特别有用。 例如,它允许您在 一个地方。在
下面是一个让您入门的示例:
from itemloaders import ItemLoader from parsel import Selector html_data = ''' <!DOCTYPE html> <html> <head> <title>Some random product page</title> </head> <body> <div class="product_name">Some random product page</div> <p id="price">$ 100.12</p> </body> </html> ''' loader = ItemLoader(selector=Selector(html_data)) loader.add_xpath('name', '//div[@class="product_name"]/text()') loader.add_xpath('name', '//div[@class="product_title"]/text()') loader.add_css('price', '#price::text') loader.add_value('last_updated', 'today') # you can also use literal values item = loader.load_item() item # {'name': ['Some random product page'], 'price': ['$ 100.12'], 'last_updated': ['today']}
有关详细信息,请查看documentation。在
贡献
欢迎各位投稿!在
如果要查看某些代码,请选中“打开” Pull Requests here
在如果要提交代码更改
在- File an issue here, if there isn’t one yet
- Fork this repository
- Create a branch to work on your changes
- Push your local branch and submit a Pull Request
- 项目
标签: