我想创建一个机器人来使用以下地址刮取网站:
https://1xxpers100.mobi/en/line/
但问题是当我想从这个网站获取数据时 我意识到这个网站正在使用django,因为他们正在使用 像{if group_name}}等短语
有一个使用这种方法创建的循环,它创建表行和 我想要的信息就在那里
当我使用python时,我下载了找不到的html代码 除了“{code}}”之外的任何内容,但是当我使用chrome开发工具(inspect)和console时,我可以看到我想要的表中的内容
我怎样才能像chrome工具一样获得保存该表内容的html代码 从这个网站上获取我想要的信息
我获取代码的方法是使用python:
import urllib.request
fp = urllib.request.urlopen("https://1xxpers100.mobi/en/line/")
mybytes = fp.read()
mystr = mybytes.decode("utf8")
fp.close()
这应该适用于您想要的:
这里
'lmxl'
是我使用的,因为它适用于我测试它的站点。如果您在这方面有问题,请尝试另一个解析器另一个问题是,有一个默认情况下无法识别的字符。因此,使用
utf-8
阅读soup
的内容额外信息
这与django无关。HTML具有所谓的“树”状结构。其中,每组标记都是其内部所有子标记的父标记。你只是在树上读得不够深
相关问题 更多 >
编程相关推荐