Python中文
首页
教程
问答
标签
搜索
登录
注册
如何获取html页面中的所有标记和信息(特别是页面中的所有链接)?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试使用BeautifulSoup获取此页上所有可用的链接。 但是,在使用urllib获取URL,然后使用BeautifulSoup对其进行解析时,我并没有返回此页面上的所有可用信息。你知道吗</p> <p>我试过不同的解析器(html.parser语法分析器,lxml,xml,html5lib),但它不会返回所需的结果。你知道吗</p> <p>我知道如何获取标记的详细信息,但是我存储html数据的文件中不包含可用的链接。但当我检查chrome上的元素时,它确实显示了链接。下面是我正在处理的URL的代码:</p> <pre><code>def fetch_html(fullurl,contextstring): print("Opening the file connection for " + fullurl) uh= urllib.request.urlopen(fullurl, context=contextstring) print("HTTP status",uh.getcode()) html =uh.read() bs = BeautifulSoup(html, 'lxml') return bs ctx = ssl.create_default_context() ctx.check_hostname = False ctx.verify_mode = ssl.CERT_NONE mainurl ='https://www.daad.de/deutschland/studienangebote/international-programmes/en/result/?q=&degree%5B%5D=2&lang%5B%5D=2&fos=3&crossFac=&cert=&admReq=&scholarshipLC=&scholarshipSC=&langDeAvailable=&langEnAvailable=&lvlEn%5B%5D=&cit%5B%5D=&tyi%5B%5D=&fee=&bgn%5B%5D=&dur%5B%5D=&sort=4&ins%5B%5D=&subjects%5B%5D=&limit=10&offset=&display=list' a=(fetch_html(mainurl, ctx)) f= open("F:\Harsh docs\python\courselinks.py","w") f.write(a.prettify()) f.close </code></pre> <p>因此,我有兴趣获得一个“嵌入式系统(ESY)”的链接。你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>你正在抓取的页面似乎是用javascript呈现的。 你可以尝试使用硒和铬。 或者您可以使用requests\uhtml包<a href="https://html.python-requests.org/" rel="nofollow noreferrer">https://html.python-requests.org/</a> 在获取html之前呈现javascript</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
1 回答
为什么在使用strptim时会出现这个datetime日期错误
5 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
10 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
6 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
3 回答
为什么在使用tabla时会得到一个空的数据帧?
3 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
2 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
7 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
6 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
5 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
2 回答
为什么在使用TextBlob时会出现HTTP错误?
4 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
1 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
1 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
2 回答
为什么在使用tkinter时不能使用复选框?
9 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
5 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
1 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
8 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
6 回答