一个包,用于提供用于构建垃圾查询的UI工具
scrapy-GU的Python项目详细描述
需要Python 3.6+
皮屑鬼
一个简单的,Qt-Webengine支持的web浏览器,具有测试垃圾蜘蛛代码的内置功能。在
还包括一个插件,使GUI可以与scrapy shell一起使用。在
目录
安装
可以使用从PyPi导入包
pip install scrapy_gui
然后可以使用import scrapy_gui
将其导入shell。在
独立用户界面
standloane用户界面可以通过使用pythonshell中的scrapy_gui.open_browser()
打开。这包括一个web浏览器和一组分析其内容的工具。在
浏览器选项卡
在搜索栏中输入任何url,然后单击return或按Go按钮。加载动画完成后,可以在“工具”选项卡中进行分析。在
“工具”选项卡
“工具”选项卡包含用于分析页面内容的各个部分。这是一个很容易使用的蜘蛛测试标签页和代码。在
NOTE: This will use the initial html response. If additional requests, javascript, etc alter the page later this will not be taken into account.
它将使用requests
包加载带有附加请求的初始html。当运行查询时,它将使用parsel包中的Selection
创建一个选择器对象。在
查询框
查询框允许您使用parsel兼容的CSS和XPath查询从页面中提取数据。在
它返回的结果就好像调用了selection.css/xpath('YOUR QUERY').getall()
。在
如果没有结果或查询中有错误,将弹出一个对话框,通知您该问题。在
EHEx 3盒通过此框,您可以添加一个正则表达式模式,该模式将在上一个css查询之外使用。在
它返回的结果就好像调用了selection.css/xpath('YOUR QUERY').re(r'YOUR REGEX')'
。这意味着,如果使用组,它将只返回括号内的内容。在
功能盒
此框允许您定义可以在查询结果和正则表达式上运行的其他python代码。代码可以是任意长和复杂的,包括添加额外的函数、类、导入等
唯一的要求是必须包含一个名为user_fun(results, selector)
的函数,该函数返回list
。在
结果框
此表将列出通过正则表达式和函数传递的所有结果(如果已定义)。在
“源”选项卡
此选项卡包含“工具”选项卡中使用的html源代码。可以使用文本框搜索特定内容。所有搜索都不区分大小写。在
“注释”选项卡
这只是一个纯文本框。退出应用程序时不会保存此处的内容。在
与碎壳集成
可以将此工具与废壳集成。这将允许您在通过中间件传递的响应上使用它,访问更复杂的请求和更具体的选择器。在
激活
要在shell中使用它,请使用以下命令导入load_selector方法:
{cd9}
然后您可以编写load_selector(您的_selector)来打开一个加载了选择器的窗口。在
For example load_selector(response)
will load your response into the UI.
运行代码时,将打开一个名为Scrapy GUI
的窗口,其中包含上述独立窗口中的Tools
、Source
和{}选项卡。在
标签:
- 项目
推荐PyPI第三方库
通过此框,您可以添加一个正则表达式模式,该模式将在上一个css查询之外使用。在
它返回的结果就好像调用了selection.css/xpath('YOUR QUERY').re(r'YOUR REGEX')'
。这意味着,如果使用组,它将只返回括号内的内容。在
功能盒
此框允许您定义可以在查询结果和正则表达式上运行的其他python代码。代码可以是任意长和复杂的,包括添加额外的函数、类、导入等
唯一的要求是必须包含一个名为user_fun(results, selector)
的函数,该函数返回list
。在
结果框
此表将列出通过正则表达式和函数传递的所有结果(如果已定义)。在
“源”选项卡
此选项卡包含“工具”选项卡中使用的html源代码。可以使用文本框搜索特定内容。所有搜索都不区分大小写。在
“注释”选项卡
这只是一个纯文本框。退出应用程序时不会保存此处的内容。在
与碎壳集成
可以将此工具与废壳集成。这将允许您在通过中间件传递的响应上使用它,访问更复杂的请求和更具体的选择器。在
激活
要在shell中使用它,请使用以下命令导入load_selector方法:
{cd9}
然后您可以编写load_selector(您的_selector)来打开一个加载了选择器的窗口。在
For example
load_selector(response)
will load your response into the UI.
运行代码时,将打开一个名为Scrapy GUI
的窗口,其中包含上述独立窗口中的Tools
、Source
和{
- 项目
标签: