如何废弃使用djang的网站

2024-05-20 14:37:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我想创建一个机器人来废弃一个地址如下的网站:

https://1xxpers100.mobi/en/line/

但问题是当我想从这个网站上获取数据时 我意识到这个网站正在使用django,因为他们正在使用 像{{if group{u name}}等短语

有一个用这种方法创建的循环,它创建表行和 我想要的信息就在那里。你知道吗

当我使用python时,我下载了找不到的html代码 除了“{code}}”之外的任何内容都可以,但是当我使用chrome开发工具(inspect)和console时,我可以看到表中我想要的内容

我怎样才能得到像chrome工具那样保存该表内容的html代码 从这个网站上得到我想要的信息?你知道吗

我获取代码的方法是使用python:

import urllib.request

fp = urllib.request.urlopen("https://1xxpers100.mobi/en/line/")
mybytes = fp.read()

mystr = mybytes.decode("utf8")
fp.close()

Tags: 方法代码https信息内容mobi网站request
1条回答
网友
1楼 · 发布于 2024-05-20 14:37:23

这应该适用于您想要的:

import requests
from bs4 import BeautifulSoup

r = requests.get('https://1xxpers100.mobi/en/line/')
soup = BeautifulSoup(r.content, 'lxml')

print(soup.encode("utf-8"))

这里'lmxl'是我使用的,因为它适用于我测试它的站点。如果你在这方面有困难,那就试试另一个解析器。你知道吗

另一个问题是有一个默认情况下无法识别的字符。所以使用utf-8读取soup的内容

额外信息

这与django无关。HTML有一种被称为“树”状结构的东西。其中,每组标记都是其内部所有子标记的父标记。你只是在树上读得不够深。你知道吗

HTML

相关问题 更多 >