通过提供包含多个URL的文件来检索网页源

2024-09-30 20:17:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我想通过提供一个包含网址列表的文件来下载网页的源代码。 例如,我有一个包含以下URL的文件

http://www.adobe.com/support/security/bulletins/apsb09-19.html
http://www.adobe.com/support/security/bulletins/apsb09-20.html                                                                                                

我可以使用urllib吗?因为我想使用python模块而不是unix命令(比如wget)?你知道吗

我想读这个文件,并给每个网址作为输入urlopen或urretrieve,有人能告诉我怎么做吗?你知道吗


Tags: 文件comhttpurl网页support列表源代码
1条回答
网友
1楼 · 发布于 2024-09-30 20:17:29

尽量把这个问题分解开来。你有一个文本文件,每个URL列在它自己的行上。您知道,由于open(),Python非常支持逐行阅读,并且您可能熟悉^{}^{},这取决于您的偏好。你知道吗

所以你需要做的就是:

  1. Open the file

  2. Read line by line

  3. 将该行用作URL字符串

  4. 使用urllibrequests向URL发送请求

  5. 捕获输出并分析/保存它

你就完了!你知道吗

相关问题 更多 >