使用lxml的欧芹提取库
parslep的Python项目详细描述
parslepy允许您从html和xml文档中提取内容 其中使用json对象定义提取规则 或等效的python dict, 其中键是要分配给提取内容的名称, 值是css选择器或xpath表达式。
欧芹是欧芹提取的一种方法。 语言定义的here, 使用lxml和cssselect。
您可以嵌套对象,生成对象列表,以及 在一定程度上)混合css和xpath。
朴素的学生能理解lxml和cssselect所理解的, 大致是css3选择器和xpath 1.0表达式。