如何循环浏览URL向量并从每个URL中提取一些基本标记

2024-10-03 21:26:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图通过一个URL列表循环,并从每个链接抓取一些数据。这是我的密码

from bs4 import BeautifulSoup as bs
import webbrowser
import requests

url_list = ['https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy',
'https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy_history']

for link in url_list:
    File = webbrowser.open(link)
    File = requests.get(link)
    data = File.text
    soup = bs(data, "lxml")
    tspans = soup.find_all("tspan")
    tspans

我认为这很接近,但是我没有得到任何关于“tspans”变量的信息。我没有错tspans'只显示[]

这是一个内部的公司内部网,所以我不能分享确切的细节,但我认为这只是一个问题,抓取所有的HTML元素命名为'tspans'和写入所有的文本文件或CSV文件。这是我的最终目标。我想把所有的东西整理成一个大的列表,然后全部写进一个文件。我很感激你能帮我做这项工作。谢谢

另外,我打算使用Selenium来登录这个需要creds的站点,但是我现在测试的代码似乎允许您在浏览器上打开新的选项卡,如果您已经登录,那么一切都可以正常加载。这是最佳实践,还是应该使用完整的登录凭据+Selenium?我只是想让事情简单些


Tags: httpsimportcomurl列表bsadminlink