我试图通过一个URL列表循环,并从每个链接抓取一些数据。这是我的密码
from bs4 import BeautifulSoup as bs
import webbrowser
import requests
url_list = ['https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy',
'https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy_history']
for link in url_list:
File = webbrowser.open(link)
File = requests.get(link)
data = File.text
soup = bs(data, "lxml")
tspans = soup.find_all("tspan")
tspans
我认为这很接近,但是我没有得到任何关于“tspans”变量的信息。我没有错tspans'只显示[]
这是一个内部的公司内部网,所以我不能分享确切的细节,但我认为这只是一个问题,抓取所有的HTML元素命名为'tspans'和写入所有的文本文件或CSV文件。这是我的最终目标。我想把所有的东西整理成一个大的列表,然后全部写进一个文件。我很感激你能帮我做这项工作。谢谢
另外,我打算使用Selenium来登录这个需要creds的站点,但是我现在测试的代码似乎允许您在浏览器上打开新的选项卡,如果您已经登录,那么一切都可以正常加载。这是最佳实践,还是应该使用完整的登录凭据+Selenium?我只是想让事情简单些
目前没有回答
相关问题 更多 >
编程相关推荐