Python cloudscraper包_程序模块 - PyPI

绕过cloudflare反bot页面的python模块。

cloudscraper的Python项目详细描述

刮云器

一个简单的python模块，可以绕过cloudflare的反bot页面（也称为"我处于攻击模式"或iuam），它通过请求实现。CloudFlare会定期更改其技术，因此我会经常更新此回购协议。

如果您希望抓取或爬网受cloudflare保护的网站，这将非常有用。cloudflare的反bot页面目前只检查客户端是否支持javascript，不过它们可能会在将来添加其他技术。

由于cloudflare不断更改和强化其保护页面，cloudscraper需要一个javascript解释器来解决javascript难题。这使得脚本可以轻松地模拟普通的web浏览器，而无需显式地消除和解析cloudflare的javascript。

作为参考，这是CloudFlare用于这些类型页面的默认消息：

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

使用cloudscraper的任何脚本在首次访问启用cloudflare反bots的任何站点时都将休眠约5秒，但在第一次请求后不会出现延迟。

安装

只需运行pip install cloudscraper。pypi包位于https://pypi.python.org/pypi/cloudscraper/" rel="nofollow">https://pypi.python.org/pypi/cloudscraper/

或者，克隆此存储库并运行python setup.py install

依赖关系

巨蟒2.7-3.x
请求>；=2.9.2
pyopenssl>；=17.0
brotli>；=1.0.7
请求工具带>；=0.9.1

能够在javascript解释器之间进行选择。

js2py>；=0.60
脉轮核心
- 库二进制文件也可以在这里找到。
v8
- 我们用蟒蛇v8eval由索尼开发的模块，编译和安装V8需要10亿年（~90分钟）。
node.js

python setup.py install将自动安装python依赖项。除了js2py之外，您决定使用的javascript解释器是安装自己所需的唯一工具。

更新

CloudFlare偶尔会修改他们的反机器人保护页面，到目前为止，平均每年可能会更改一次。

如果您注意到反bot页面已更改，或者此模块突然停止工作，请创建github问题，以便我可以相应地更新代码。

许多问题是由于用户没有更新到该项目的最新版本造成的。在提交问题之前，请运行以下命令：

pip show cloudscraper

如果"版本"字段的值不是最新版本，请运行以下命令更新您的软件包：

pip install cloudscraper -U

如果您仍然遇到问题，请打开一个问题并包括：

完整的异常和堆栈跟踪。
脚本无法处理的受CloudFlare保护的页的URL。
包含受保护页的HTML源的Pastebin或Gist。
来自pip的版本号显示cloudscraper

用法

使用cloudscraper最简单的方法是调用create\u scraper（）

importcloudscraperscraper=cloudscraper.create_scraper()# returns a CloudScraper instance# Or: scraper = cloudscraper.CloudScraper()  # CloudScraper inherits from requests.Sessionprintscraper.get("http://somesite.com").content# => "<!DOCTYPE html><html><head>..."

就这样……

从该会话对象向受CloudFlare Anti-Bot保护的网站发出的任何请求都将自动处理。不使用CloudFlare的网站将被正常处理。您不需要进一步配置或调用任何内容，您可以有效地对待所有网站，就好像它们没有受到任何保护一样。

使用cloudscraper的方式与使用请求的方式完全相同。cloudscraper与requestssession对象的工作方式相同，只需调用scraper.get（）或requests.post（）而不是调用scraper.get（）或scraper.post（）

有关详细信息，请参阅请求文档。

选项

现有会话

如果您已经有一个现有的请求会话，可以将其传递到create_scraper（）以继续使用该会话。

session=requests.session()scraper=cloudscraper.create_scraper(sess=session)

不幸的是，并不是所有请求的会话属性都容易被转移，所以如果遇到这个问题，您应该用sess=cloudscraper.create撸scraper（）替换初始的sess=requests.session（）调用

调试

scraper=cloudscraper.create_scraper(debug=True)

或

scraper=cloudscraper.create_scraper()scraper.debug=True

延迟

通常，当浏览器面对CloudFlare IUAM挑战页面时，CloudFlare要求浏览器在提交挑战答案前等待~5秒。如果一个网站负载很重，有时可能会失败。一种解决方案是增加延迟（可能是10秒或15秒，具体取决于网站）。如果要覆盖此延迟，请将delay关键字参数传递到create撸scraper（）或cloudscraper（）

无需覆盖此延迟，除非CloudScraper生成错误，建议您增加延迟。

scraper=cloudscraper.create_scraper(delay=10)

或

scraper=cloudscraper.create_scraper()scraper.delay=10

javascript解释器

cloudscraper当前支持以下javascript解释器

默认解释器设置为js2py，您可以通过使用以下值之一定义js2py，nodejs，chakracore或v8来设置要使用的参数

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

或

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

第三方Recaptcha解决方案

cloudscraper目前支持以下第三方recaptcha解决方案（如果您需要的话）（但是您不应该这样做，除非您做了一些超出规范的事情）。

anticaptcha
死亡密码
2captcha
返回"响应"

我正在添加更多内容，因此如果您希望添加服务，请在github上提交支持票

抗癫痫

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

或

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

通过验证码死亡

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

或

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

2captcha

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

或

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

返回u响应

如果希望请求响应有效负载而不求解reCAPTCHA，请使用此选项。

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

或

Checking your browser before accessing website.com.

This process is automatic. Your browser will redirect to your requested content shortly.

Please allow up to 5 seconds...

*注意：如果使用代理，并且您希望通过代理将reCAPTCHA解给第三方，请在`reCAPTCHA`字典中传递`'proxy'：true`，它将使用您设置的scraper会话代理，否则将使用您的默认路由。

Brotli支持

我们在中添加了brotli解压缩支持，默认情况下，只有通过将allow brotli参数设置为false传递到create撸scraper（），才能禁用它。

pip show cloudscraper

0
集成
很容易将cloudscraper与其他应用程序和工具集成。CloudFlare使用两个cookies作为标记：一个用于验证您是否通过了他们的挑战页面，另一个用于跟踪您的会话。要绕过质询页，只需在您发出的所有http请求中包括这两个cookie（带有相应的用户代理）。
要仅检索cookies（作为字典），请使用cloudscraper.get_tokens（）。要将它们作为完整的cookiehttp报头检索，请使用cloudscraper.get_cookie_string（）
获取令牌和获取cookie字符串都接受请求的常用关键字参数（例如获取令牌（url，proxies={"http"："socks5://localhost:9050"}））。
有关详细信息，请阅读请求参数的"请求"文档。
用户代理处理
这两个集成函数返回一个元组（cookie，user_agent_string）
您必须使用相同的用户代理字符串来获取令牌并使用这些令牌发出请求，否则CloudFlare会将您标记为bot。
这意味着您必须将返回的用户代理字符串传递给要将令牌传递给的任何脚本、工具或服务（例如curl或专用的刮片工具），并且它在发出http请求时必须使用传递的用户代理。
集成示例
记住，在检索或使用这些cookie时，必须始终使用同一个用户代理。这些函数都返回一个元组（cookie dict，user_agent_string）
通过代理检索cookie dict
get_tokens是返回包含cloudflare会话cookie的python dict的便利函数。为了演示，我们将配置此请求以使用代理。（请注意，如果您通过代理请求cloudflare清除令牌，则在将这些令牌传递给服务器。CloudFlare要求挑战解决IP和访客IP保持不变。）
如果不希望使用代理，请不要传递proxies关键字参数。这些便利函数支持所有请求的常规关键字参数，如params，data，以及headers
pip show cloudscraper
1
检索cookie字符串
获取cookie字符串是一个方便的函数，用于将令牌作为字符串返回，以用作http头值。
当手动创建一个http请求，或使用传递原始cookie头的外部应用程序或库时，这非常有用。
pip show cloudscraper
2
卷曲示例
下面是一个将cloudscraper与curl集成的示例。如您所见，您只需将cookies和用户代理传递给curl即可。
pip show cloudscraper
3
精简版本。通过curl打印受cloudflare保护的任何站点的页面内容。
警告：shell=true在实际代码中与子流程一起使用可能很危险。
pip show cloudscraper
4
捐款
如果你想表达你对这个项目的爱和/或欣赏，那就喊我一杯咖啡或啤酒吧：）
标签：
模块
to
browser
代理
your
bot
页面
cloudflare
scraper
欢迎加入QQ群-->： 979659372
                                    
推荐PyPI第三方库
yourproject
未提供项目说明
metrics2mqtt
将crossplatorm系统性能指标发布到MQTT代理
mlnd-test-distributions
高斯分布
distributions-trial
高斯分布
tfagents
防止漏洞攻击的软件包
vdz.plone.projectreview
Plone项目评审
mytestlib-tst
我的测试库。
django-runscript
Django命令，用于在Django环境中运行自定义脚本。
philter-lite
未提供项目说明
mlaws-distributions
高斯分布和二项式分布
gauss-bin-distributions
高斯分布和二项式分布
pyNSID
存储、可视化和处理三维光谱和成像数据的框架（NSID）
ner-s2s
耐尔s2s
stcs-distributions
高斯分布
agrc-sweeper
用于生成良好数据的CLI工具

导 航 栏

                                            项目 描述
                                        

                                            版本历史
                                        

                                                下载文件
                                            
项目 链接
首页
                                    
标 签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
                                
                            
维护者

                                  VeNoMouS
                                
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
为什么我的神经网络模型的准确性不能在这个训练集上得到提高？
为什么我的神经网络模型的权重变化不大？
为什么我的神经网络的成本不断增加？
为什么我的神经网络的输入pickle文件是19GB？
为什么我的神经网络给属性错误？“非类型”对象没有属性“形状”
为什么我的神经网络训练这么慢？
为什么我的神经网络输出错误？
为什么我的神经网络预测适用于MNIST手绘图像时是正确的，而适用于我自己的手绘图像时是不正确的？
为什么我的神经网络验证精度比我的训练精度高，而且它们都是常数？
为什么我的私人用户间聊天会显示在其他用户的聊天档案中？
为什么我的积分的绝对误差估计值大于积分（使用scipy.integrate.nqad）？
为什么我的积层回归器得分比它的组件差？
为什么我的移动方法不起作用？
为什么我的稀疏张量不能转换成张量
为什么我的稀疏张量不能转换成张量？

cloudscraper 1.1.40

cloudscraper的Python项目详细描述

刮云器

安装

依赖关系

更新

用法

选项

现有会话

调试

延迟

javascript解释器

第三方Recaptcha解决方案

2captcha

返回u响应

*注意：如果使用代理，并且您希望通过代理将reCAPTCHA解给第三方，请在reCAPTCHA字典中传递'proxy'：true，它将使用您设置的scraper会话代理，否则将使用您的默认路由。

Brotli支持

集成

用户代理处理

集成示例

检索cookie字符串 获取cookie字符串是一个方便的函数，用于将令牌作为字符串返回，以用作http头值。当手动创建一个http请求，或使用传递原始cookie头的外部应用程序或库时，这非常有用。pip show cloudscraper 2

捐款

推荐PyPI第三方库

yourproject

metrics2mqtt

mlnd-test-distributions

distributions-trial

tfagents

vdz.plone.projectreview

mytestlib-tst

django-runscript

philter-lite

mlaws-distributions

gauss-bin-distributions

pyNSID

ner-s2s

stcs-distributions

agrc-sweeper

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

*注意：如果使用代理，并且您希望通过代理将reCAPTCHA解给第三方，请在`reCAPTCHA`字典中传递`'proxy'：true`，它将使用您设置的scraper会话代理，否则将使用您的默认路由。

检索cookie字符串
`获取cookie字符串`是一个方便的函数，用于将令牌作为字符串返回，以用作http头值。
当手动创建一个http请求，或使用传递原始cookie头的外部应用程序或库时，这非常有用。
`pip show cloudscraper`
2

导航栏

项目链接

标签