我正试图刮取一个网页http://spys.one/en/anonymous-proxy-list/以获取代理地址和端口,但事实上,我可以刮取地址,但不能刮取端口,因为它包含在javascript中,并以某种方式编码。请看一看。 我用的是请求和漂亮的汤
'''python
from bs4 import BeautifulSoup
import requests
url='http://spys.one/en/anonymous-proxy-list/'
r=requests.get(url)
soup=BeautifulSoup(r.content,'lxml')'''
在网页的头部
<script type="text/javascript">o5y5=7474;l2h8=6751;b2v2=5357;p6g7=4218;m3k1=2225;h8x4=1220;q7u1=5086;t0o5=4972;j0a1=1545;w3l2=1788;d4j0g7=0^o5y5;j0r8o5=1^l2h8;t0h8c3=2^b2v2;n4k1b2=3^p6g7;x4b2m3=4^m3k1;m3d4z6=5^h8x4;c3e5e5=6^q7u1;s9x4a1=7^t0o5;v2s9i9=8^j0a1;h8z6n4=9^w3l2;</script>
在网页正文中
document.write("<font class=spy2>:<\/font>"+(n4k1b2^p6g7)+(h8z6n4^w3l2)+(x4b2m3^m3k1)+(d4j0g7^o5y5)+(m3d4z6^h8x4))
输出结果在原始网页上为“:3905”
如果不先呈现页面,这是很难做到的,我可以在selenium中获取数据:
输出:
相关问题 更多 >
编程相关推荐