如何循环浏览URL向量并从每个URL中提取一些基本标记

2024-10-03 21:26:26 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图通过一个URL列表循环，并从每个链接抓取一些数据。这是我的密码

from bs4 import BeautifulSoup as bs
import webbrowser
import requests

url_list = ['https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy',
'https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy_history']

for link in url_list:
    File = webbrowser.open(link)
    File = requests.get(link)
    data = File.text
    soup = bs(data, "lxml")
    tspans = soup.find_all("tspan")
    tspans

我认为这很接近，但是我没有得到任何关于“tspans”变量的信息。我没有错tspans'只显示[]

这是一个内部的公司内部网，所以我不能分享确切的细节，但我认为这只是一个问题，抓取所有的HTML元素命名为'tspans'和写入所有的文本文件或CSV文件。这是我的最终目标。我想把所有的东西整理成一个大的列表，然后全部写进一个文件。我很感激你能帮我做这项工作。谢谢

另外，我打算使用Selenium来登录这个需要creds的站点，但是我现在测试的代码似乎允许您在浏览器上打开新的选项卡，如果您已经登录，那么一切都可以正常加载。这是最佳实践，还是应该使用完整的登录凭据+Selenium？我只是想让事情简单些

Tags： https import com url 列表 bs admin link

0条回答

目前没有回答

如何循环浏览URL向量并从每个URL中提取一些基本标记

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何循环浏览URL向量并从每个URL中提取一些基本标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >